近 些 年 来 ， 随 着 Web 应 用 程序 、 云 计算 以 及 大 数据 的 兴起 ，NoSQL 已 经 逐渐 取得 了 与 天 系 型 数据 库 相 对 等 的 地 位 。 


和 计算 机 领域 中 的 其 他 技术 一 样 ， 数 据 库 技术 的 发 展 在 某 些 方面 也 是 由 需求 带动 的 。 当 前 各 种 应 用 程序 所 使 用 的 数据 ， 以 及 
技术 人 员 和 商务 人 员 对 这 些 数据 所 进行 的 分 析 ， 都 比 天 系 型 数据 库 占 主导 地 位 的 那个 时 代 更 加 丰富 。NoSQL 技 术 之 所 以 会 引发 
关注 ， 部 分 原因 就 在 于 它 有 时 能 够 更 好 地 应 对 这 些 灵活 多 变 的 数据 。 


在 灵活 应 对 数据 这 个 大 前 提 之 下 ， 不 同 的 程序 又 有 不 同 的 侧重 点 。 有 些 程序 适合 使 用 轻 量 级 的 数据 库 ， 有 些 程序 强调 对 数据 
的 搜索 功能 ， 有 些 程 序 需要 处 理 海量 的 信息 ， 还 有 一 些 程序 则 关注 数据 之 间 的 联系 。 于 是 ，NoSQL 数 据 库 也 形成 了 四 大 门类 。 
尽管 它们 之 间 的 界限 并 不 十 分 严格 ， 但 还 是 有 必要 了 解 这 四 种 产品 各 自 的 优点 和 缺点 ， 以 便 选 出 最 适合 当前 任务 的 数据 库 。 怎 样 
根据 程序 需求 和 产品 特性 选 出 合适 的 数据 库 ， 正 是 本 书 所 要 讲解 的 核心 问题 。 


此 外 ， 作 者 也 反复 强调 ，NoSQL 一 词 之 中 的 No 并 不 是 对 关系 型 数据 库 的 简单 否定 ， 而 是 对 它 的 一 种 传承 和 创新 。 关 系 型 数 
据 库 的 某 些 特征 、 查 询 语法 以 及 设计 思路 ， 同 样 可 以 移 用 到 NoSQL 数 据 库 之 中 。 作 者 在 全 书 的 多 个 章节 里 面 ， 都 对 这 两 大 体系 
进行 了 对 比 ， 这 些 内 容 或 许 能 给 大 家 理解 NoSQL 的 用 法 带 来 一 些 启发 。 

讲解 数据 库 技术 的 《For Mere Mortals》 书 系 一 贯 以 通俗 易 懂 的 风格 而 著称 ， 本 书 也 是 如 此 ， 几 是 对 NoSQL 感 兴趣 的 人 都 
不 妨 一 读 。 本 书 前 2 章 直接 指出 了 数据 库 与 需求 之 间 的 关系 ， 并 概括 了 NoSQL 与 传统 数据 库 的 异同 ， 以 及 4 种 主要 的 NoSQL 产 品 
所 具备 的 特征 。 其 后 12 章 分 为 4 组 ， 每 组 内 的 3 章 分 别 讲解 某 种 NoSQL 数 据 库 的 基础 知识 、 专 业 术 语 以 及 设计 技巧 。 讲 解 设计 技 
巧 时 ， 作 者 以 货运 公司 所 面 对 的 数据 管理 需求 为 例 ， 分 4 个 案例 来 演示 4 种 NoSQL 数 据 库 的 用 法 ， 这 4 种 用 法 合 起 来 就 是 最 后 一 章 
所 描绘 的 那 幅 NoSQL 数 据 库 全 景 图 。 了 解 NoSQL 技 术 的 全 景 之 后 ， 读 者 可 以 根据 本 书 所 提供 的 参考 资料 ， 继 续 研 读 其 他 专著 。 

因为 这 是 一 本 通俗 读物 ， 所 以 除了 一 些 难于 翻译 的 术语 之 外 ， 一 般 术语 都 尽量 译 为 中 文 。 同 一 个 术语 有 2、3 种 译 法 的 ， 译 

会 采用 较 易 理 解 的 一 种 ， 并 在 括号 内 给 出 其 他 称呼 ， 译 法 过 于 纷繁 的 请 参见 书后 的 术语 表 。 


翻译 本 书 的 过 程 中 ， 我 得 到 了 机 械 工 业 出 版 社 华章 公司 诸位 编辑 和 工作 人 员 的 帮助 ， 在 此 深 表 谢 意 。 


由 于 译 者 水 平 有 限 ， 错 误 与 疏漏 之 处 ， 请 大 家 发 邮件 至 eastarstormlee@gmailcom， 或 访 
问 github.com/jeffreybaoshenlee/zh-translation-errata-nosql/issues 留 言 ， 给 我 以 批评 和 指教 。 该 网 页 还 有 中 英文 词汇 对 照 


表 以 供 参考 。 


爱 飞翔 


“人 生 的 进步 ， 赁 的 是 勇气 ， 而 不 是 适应 能 力 。” 


亨利 . 米 勒 (Henry Miller) 


在 工作 中 我 们 难免 会 谈 到 数据 。 每 个 人 都 关注 个 人 数据 的 隐私 权 ， 每 家 公司 都 竭力 防止 网 络 入 侵 者 盗 取 数据 ， 而 政府 部 门 和 


商业 机 构 则 都 对 数据 非常 感 兴趣 。 为 了 描述 数据 ，IT 分 析 师 想 出 了 很 多 令 人 眼花 综 乱 的 专业 名 词 ， 如 大 数据 (Big Data) 、 流 数 
据 (streaming data) 、 高 速 数据 (high-velocity data) 和 非 结 构 化 数据 (unstructured data) 等 。 另 外 ， 描 述 数据 存储 方 
式 的 术语 也 层出不穷 ， 如 数据 库 (database) 、 数 据 存储 (data store) 、 数 据 仓 库 (data warehouse) 、 数 据 湖泊 (data 
lake) 等 。 有 人 甚至 还 造 出 了 数据 沼泽 (data swamp) 这 个 词 。 


当 其 他 人 都 在 热烈 讨论 数据 的 时 候 ， 有 一 些 人 需要 去 收集 数据 、 处 理 数据 、 分 析 数 据 并 管理 数据 。 本 书 就 是 为 这 部 分 人 而 写 
的 。 


NoSQl 数 据 库 是 为 了 应 对 需求 而 诞生 的 。 原 来 的 那些 数据 管理 工具 在 过 去 几 十 年 里 一 直 都 能 非常 好 地 应 对 相关 的 需求 ， 但 
现在 ， 它 们 却 无 法 适应 新 兴 的 网 络 应 用 程序 了 。 目 前 的 数据 管理 工具 所 要 应 对 的 最 大 挑战 ， 并 不 是 令 成 二 上 万 的 商务 专家 能 够 使 
用 公司 内 部 的 数据 库 ， 而 是 要 使 Google、Amazon、Facebook 及 Yahool 这 样 的 公司 能 够 应 对 百 万 级 别 的 网 络 用 户 。 


从 理论 上 来 说 ， 关 系 型 数据 模型 还 是 非常 坚实 的 ， 过 去 它 能 够 满足 我 们 对 数据 的 需求 ， 而 现在 ， 我 们 则 需要 对 其 做 出 一 些 改 
进 。 网 络 信息 采集 (Web crawling) 和 在 线 购物 管理 (online shopping cart management) 等 专门 的 网 络 程序 ， 推 动 了 业界 
对 原 有 数据 模型 的 改进 ， 同 时 也 催生 了 一 些 非 关 系 型 数据 库 ， 如 键 值 数据 库 、 文 档 数据 库 、 列 族 数 据 库 及 图 数据 库 等 。 原 有 的 关 
系 型 数据 库 仍 然 有 其 作用 ， 它 们 并 不 会 为 NoSQL 数 据 库 所 取代 。 这 些 NoSQL 数 据 库 只 是 提供 了 一 些 额外 的 选项 ， 以 满足 用 户 对 
性 能 和 功能 的 不 同 需 求 。 


本 书 是 NoSQl 数 据 库 的 入 门 指南 ， 它 旨 在 使 读者 了 解 何 时 应 该 使 用 NoSQL 数 据 库 ， 何 时 不 应 使 用 它们 。 而 在 本 书 中 ， 笔 者 
最 想 告诉 大 家 的 则 是 怎样 根据 自己 的 数据 管理 需求 来 明智 地 使 用 NoSQL 数 据 库 。 


与 本 书 有 关 的 幻灯 片 、 章 节 习 题 及 教学 指导 手册 ， 可 以 从 Pearson 的 Instructor Resource Center (IRC) 获取 ， 网 址 


是 pearsonhighered.com。 
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来 执笔 。 有 很 多 令 人 尊敬 的 作者 及 出 版 业 专家 都 曾 参与 For Mere Mortals 书 系 的 写作 及 发 行 工作 ， 能 与 他 们 同 列 ， 笔 者 深 感 荣 
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库 有 关 的 章节 ， 并 且 毫 不 犹豫 地 从 自己 的 日 程 安排 中 拿 出 一 些 时 间 帮 助 我 完成 本 书 ， 使 相关 章节 的 质量 得 以 改善 。 
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是 我 们 人 生 旅 途中 的 又 一 件 作品 吧 。 


Dan Sullivan 
俄勒冈 州 波 特 兰 市 


2015 年 


引言 


“每 当 我 觉得 自己 刚刚 领会 目前 这 种 生活 方式 时 ， 人 生 却 又 有 了 新 的 变化 。” 


Hugh Prather 


数据 库 的 发 展 过 程 和 电视 一 样 。 曾 经 有 一 段 时 间 ， 我 们 只 能 在 有 限 的 几 个 频道 之 间 切 换 ， 而 那些 频道 所 放映 的 节目 彼此 都 没 
有 太 大 区 别 。 但 现在 已 经 发 生 了 变化 。 现 在 的 电视 不 再 像 从 前 那样 ， 只 能 在 几 个 台 之 间 观 看 大 同 小 异 的 节目 。 与 之 类 似 ,， 现 在 的 
数据 管理 系统 也 不 再 只 是 关系 型 数据 库 的 代名词 。 


PostgreSQL、MySQL、Oracle、Microsoft SQL Server 和 IBM DB2 等 名 字 ，IT 人 士 都 应 该 非常 熟悉 ， 甚 至 连 数据 管理 领域 
之 外 的 一 些 从 业者 也 了 解 这 些 产 品 。 在 过 去 几 十 年 中 ， 数 据 管 理 人 员 一 直 使 用 关系 型 数据 库 来 完成 工作 。 它 们 既 能 应 对 包 襄 追踪 
及 账户 余额 管理 等 商业 需求 ， 又 能 满足 真菌 研究 及 人 类 疾病 研究 等 科研 需求 。 关 系 型 数据 库 可 以 按照 某 种 逻辑 来 划分 数据 ， 并 使 
得 用 户 能 够 轻松 地 获取 这 些 数据 。 这 种 数据 库 的 一 项 重要 特性 就 是 ， 无 论 数 据 库 内 部 正在 发 生 多 少 变化 ， 它 都 能 给 各 位 用 户 提 供 
协调 一 致 的 数据 视图 。 


数据 库 领域 内 的 很 多 人 都 感 党 自己 似乎 已 经 理解 了 数据 库 的 用 法 ， 可 在 这 个 时 候 ， 情 况 却 发 生 了 变化 ， 实 际 上 ， 是 因特网 发 
生 了 变化 。 因 特 网 的 前 身 是 美国 军 方 赞 助 的 ARPANET 网 络 ， 它 起 初 是 个 学 术 合作 平台 ， 后 来 逐渐 变 为 商用 平台 和 个 人 应 用 平 
台 ， 网 络 中 的 数据 量 和 数据 种 类 也 持续 增 大 。 除 了 要 管理 账户 余额 ， 我 们 还 要 用 计算 机 来 阅读 最 近 的 新 闻 、 帮 助 自己 完成 家 庭 作 
业 ， 并 汇总 与 新 电影 有 天 的 评论 等 。 很 多 人 不 仅 要 通过 计算 机 与 家 人 取得 联系 、 与 同事 相互 协作 ， 而 且 还 要 通过 它 来 接受 职业 教 
育 并 谋求 职业 发 展 。 

既然 与 数据 管理 有 关 的 需求 已 经 发 生 了 巨大 的 变化 ， 那 自然 就 会 诞生 许多 全 新 的 数据 管理 方式 。 最 新 一 代 的 数据 管理 工具 统 
称 为 NoSQL 数 据 库 。NoSQL 这 个 名 字 并 没有 从 正面 描述 这 些 数 据 管 理 系统 究竟 是 什么 ， 而 是 从 反面 摘 述 了 这 些 系统 不 是 什么 。 
之 所 以 采用 这 种 描述 形式 ， 是 为 了 强调 它 与 关系 型 数据 库 之 间 的 对 比 ， 关 系 型 数据 库 曾 经 占据 着 统治 地 位 ， 那 些 数据 库 使 用 一 种 
名 叫 SQL 的 语言 。 


NoSQL 数 据 库 可 以 分 为 四 大 类 : 键 值 数 据 库 、 文 档 数 据 库 、 列 族 数 据 库 和 图 数据 库 。 (以 搜索 为 导向 的 数据 管理 系统 ， 如 
Solr 及 Elasticsearch 等 ， 有 时 也 算 作 NoSQL 数 据 库 中 的 一 员 ， 但 它们 不 在 本 书 的 讨论 范围 之 内 。) 


键 值 数据 库 采 用 一 种 简单 的 模型 来 存放 数据 ， 用 户 可 以 根据 标识 符 来 查找 某 条 数据 ， 这 个 标识 符 叫做 键 (key) ， 待 查询 的 


数据 叫做 值 (value) 。20 世 纪 90 年 代 中 期 发 布 的 BerkleyDB 是 一 款 早期 的 键 值 数据 库 ， 对 于 那 种 不 宜 使 用 关系 型 数据 库 的 应 用 
程序 来 说 ， 可 以 使 用 这 种 数据 库 。 


文档 数据 库 对 键 值 数据 库 的 概念 做 了 扩充 ， 它 把 键 值 组 划分 到 一 种 名 为 文档 (document) 的 逻辑 结构 之 中 。 文 档 数据 库 是 
性 能 较 高 且 较 为 灵活 的 数据 管理 系统 ， 越 来 越 多 的 人 用 它 来 完成 各 类 数据 管理 任务 。 


列 族 数 据 库 从 表面 上 看 与 关系 型 数据 库 相 似 。 首 次 实现 列 族 数据 库 这 一 概念 的 产品 是 Google 公 司 的 BigTable， 该 产品 的 名 
称 既 暗示 了 它 与 关系 型 数据 库 之 间 的 联系 ， 又 点 出 了 列 族 数 据 库 的 核心 数据 结构 ， 那 就 是 table ( 表 ) 。 列 族 数据 库 适 用 于 某 些 
数据 量 较 大 上 且 要 求 较为 严 苛 的 数据 密集 型 应 用 程序 。 


图 数据 库 最 适合 对 网 状 数据 进行 建 模 ， 也 就 是 对 那 种 相互 之 间 有 联系 的 数据 进行 建 模 。 计 算 机 之 间 的 通信 以 及 用 户 之 间 的 交 
互 ， 都 可 以 采用 图 数据 库 来 建 模 。 


在 数据 库 系 统 的 研究 与 开发 领域 ， 可 能 会 呈现 出 两 类 数据 库 并 行 的 局 面 。 一 方面 ， 我 们 已 经 有 了 较为 成 就 且 适 用 范围 较 广 的 
关系 型 数据 库 ， 它 能 够 很 好 地 处 理 很 多 数据 管理 问题 ， 但 另 一 方面 ， 我 们 还 有 NoSQL 数 据 库 可 供 选 择 ， 其 中 包括 早已 开始 研发 
的 键 值 数据 库 ， 以 及 最 近 才 设计 出 来 的 文档 数据 库 、 列 族 数 据 库 及 图 数据 库 等 产品 。 


这 种 局 面 会 令 我 们 在 做 技术 决策 的 时 候 感到 更 加 困难 。 本 书 就 是 想 要 降低 大 家 在 选择 数据 库 时 所 面临 的 困难 。 读 过 本 书 之 
后 ， 你 应 该 对 各 种 NoSQL 数 据 库 都 有 相当 的 了 解 ， 并 且 明 白 它 们 分 别 适 用 于 哪些 场合 。 


大 家 要 知道 ，NoSQL 数 据 库 变化 得 非常 迅速 。 阅 读本 书 的 时 候 ， 你 经 常 使 用 的 NoSQL 数 据 库 可 能 已 经 添加 了 一 些 书 中 没有 
提 到 的 功能 。 尤 其 要 注意 的 是 ，NoSQL 数 据 库 对 事务 处 理 的 支持 会 越 来 越 丰富 。 不 同 的 数据 管理 系统 会 用 不 同 的 方式 来 处 理事 
务 ， 而 这 正 是 能 够 区 分 各 种 数据 管理 系统 的 一 项 重要 特征 。 (你 可 能 还 不 太 熟 悉 事 务 处 理 这 一 概念 ， 没 关系 ， 继 续 读 下 去 ， 你 就 


会 明白 它 的 意思 。) 


本 书面 对 的 读者 


几 是 对 NoSQL 数 据 库 的 使 用 方式 感 兴趣 的 人 都 适合 阅读 本 书 。 数 据 库 开发 新 手 、 有 经 验 的 关系 型 数据 建 模 者 以 及 NoSQL 开 
发 老手 都 可 以 在 书 中 发 现 有 用 的 内 容 。 


数据 库 开 发 新 手 可 以 通过 本 书 开头 几 章 学 到 数据 管理 系统 的 基本 原则 和 设计 准则 ， 而 且 还 能 了 解数 据 管理 的 历史 。 为 什么 要 
谈 这 些 历史 呢 ? 因为 我 们 都 知道 ， 历 史 总 是 在 不 停 地 重演 。 


整 本 书 都 会 在 NoSQL 数 据 库 与 天 系 型 数据 库 之 间 进 行 对 比 。 如 果 你 在 关系 型 数据 库 的 设计 方面 有 较 多 的 经 验 ， 那 么 可 以 通 
过 这 些 对 比 来 迅速 地 掌握 NoSQL 数 据 库 的 特性 ， 并 了 解 这 些 特性 所 具备 的 价值 。 


对 于 已 经 学 会 某 些 NoSQL 数 据 库 用 法 的 读者 来 说 ， 本 书 可 以 帮 你 了 解 其 他 类 型 的 NoSQL 数 据 库 。 键 值 数据 库 和 文档 数据 库 
运用 得 非常 广泛 ， 但 如 果 你 还 没有 遇 到 过 列 族 数据 库 或 图 数据 ， 那 么 本 书 可 以 帮 你 熟悉 它们 。 


如 果 你 已 经 能 够 顺畅 地 使 用 各 种 NoSQL 数 据 库 ， 但 是 还 想 了 解 这 些 分 布 式 系统 的 内 部 机 理 ， 那 么 可 以 把 本 书 当成 研究 的 起 
点 。 通 过 本 书 ， 大 家 会 熟悉 quorum、Bloom 过 滤器 以 及 anti-entropy 〈 反 业 ) 等 实现 层面 的 特性 。 书 中 谈 到 这 些 问题 时 ， 会 给 
出 一 些 参考 资料 以 供 大 家 深入 研究 。 


在 NoSQL 数 据 库 的 开发 文档 中 能 够 找到 的 内 容 ， 本 书 是 不 会 重复 的 。 如 果 想 知道 如 何 向 数据 库 中 插入 一 条 数据 ， 那 么 最 好 
的 办 法 就 是 直接 查阅 文档 。 而 如 果 想 获得 较为 深入 的 解说 ， 想 知道 某 个 数据 库 的 优点 和 缺点 ， 想 了 解 使 用 该 数据 的 最 佳 方式 ， 那 
么 就 需要 阅读 像 本 书 这 样 的 教程 了 。 本 书 是 对 数据 库 文 档 的 一 种 补充 ， 而 不 是 要 完全 取代 那些 文档 。 


本 书 的 目标 


本 书 是 写 给 对 数据 感 兴趣 的 读者 看 的 ， 笔 者 想 要 告诉 大 家 ， 应 该 如 何 使 用 NoSQL 数 据 库 来 解决 问题 。 本 书 并 不 要 求 读者 是 
经 验 比较 丰富 的 数据 库 专 家 ， 只 要 你 能 够 熟练 地 运用 Excel 就 可 以 开始 学 习 书 中 的 内 容 了 。 


通过 本 书 ， 不 仅 能 够 了 解 NoSQl 数 据 库 ， 而 且 还 能 知道 如 何 运 用 各 种 设计 原则 及 实践 技巧 来 应 对 数据 管理 方面 的 需求 。 本 
书 将 会 展示 NoSQL 数 据 库 管理 系统 的 内 部 细节 ， 以 便 解 释 分 布 式 数据 库 系统 的 工作 原理 ， 并 告诉 大 家 如 何 构建 易于 扩展 且 较 为 
可 靠 的 应 用 程序 ， 同 时 还 会 指出 构建 此 类 程序 时 所 应 避免 的 一 些 做 法 。 


本 书 的 特色 就 在 于 实用 。 书 中 的 全 部 内 容 都 是 为 了 告诉 大 家 如 何 用 NoSQL 数 据 库 来 解决 实际 的 问题 。 尽 管 有 些 地 方 会 提 到 
一 些 计算 机 科学 理论 ， 但 那 完全 是 为 了 更 加 详细 地 解释 某 些 重要 的 话题 。 若 是 对 相关 的 理论 比较 熟悉 ， 则 可 以 跳 过 那些 文字 。 


如 何 阅 读本 书 


对 于 刚 接触 数据 库 系 统 的 读者 来 说 ， 可 以 先 阅 读 第 1 章 和 第 2 章 。 有 了 这 些 准 备 知 识 ， 就 可 以 更 好 地 阅读 后 续 章 节 了 。 


如 果 对 关系 型 数据 库 及 其 前 身 比较 熟悉 ， 那 么 可 以 跳 过 第 1 章 。 如 果 已 经 用 过 NoSQL 数 据 库 ， 那 么 可 以 跳 过 第 2 章 。 不 过 ， 
由 于 第 2 章 里 面 完 整地 讲述 了 4 种 主要 的 NoSQL 数 据 库 类 型 ， 所 以 至 少 应 该 略 读 一 下 该 章 中 的 某 些 内 容 ， 以 便 了 解 自己 不 太 熟 悉 
的 那 几 种 类 型 。 


每 位 读者 都 应 该 阅读 本 书 的 第 二 部 分 ， 因 为 书 中 的 其 他 各 部 分 都 会 引用 这 一 部 分 的 内 容 。 第 三 、 四 、 五 部 分 可 以 按照 任意 顺 
序 来 阅读 ， 不 过 后 面 的 部 分 会 引用 早 前 章节 的 某 些 内 容 。 为 了 更 好 地 理解 每 一 种 NoSQL 数 据 库 ， 大 家 应 该 把 第 二 、 三 、 四 、 五 


部 分 中 的 每 一 章 都 读 一 遍 ， 这 4 个 部 分 各 含有 3 章 内 容 。 


第 15 章 应 该 是 在 熟悉 了 本 书 其 他 章节 的 内 容 之 后 再 来 阅读 的 。 不 过 ， 如 果 你 已 经 对 那些 内 容 有 了 充分 的 了 解 ， 那 么 可 以 跳 
过 本 章 之 前 与 NoSQL 数 据 库 有 关 的 部 分 。 对 于 想 知道 如 何在 各 种 NoSQL 数 据 库 之 间 做 出 选择 的 读者 来 说 ， 一 定 要 阅读 第 15 章 。 


本 书 的 结构 


下 面 概述 每 一 部 分 及 每 一 章 的 内 容 。 


第 一 部 分 


NoSsQL 数 据 库 并 不 是 凭空 产生 的 。 这 一 部 分 介绍 了 与 关系 型 数据 库 及 早 前 的 数据 管理 系统 有 关 的 一 些 背景 知识 。 


第 1 章 ”介绍 了 关系 型 数据 库 及 其 早 前 的 数据 管理 系统 ， 同 时 还 讨论 了 当前 的 数据 管理 系统 所 要 面 对 的 各 项 需求 。 这 些 需 求 
可 以 通过 NoSQL 数 据 库 所 提供 的 各 种 方案 来 解决 。 


第 2 章 讲解 了 数据 库 的 重要 功能 以 及 实现 分 布 式 数据 库 时 所 面临 的 困难 ， 同 时 还 讨论 了 不 同类 型 的 数据 库 在 相关 因素 上 所 
做 的 权衡 。 该 章 还 简单 地 介绍 了 后 续 章节 中 的 一 些 研究 案例 ， 这 些 案例 描述 了 各 种 NoSQL 数 据 库 的 实际 应 用 方式 。 


第 二 部 分 


这 一 部 分 讲述 了 键 值 数据 库 的 用 法 以 及 使 用 时 所 应 避免 的 问题 。 


第 3 章 ”概述 了 键 值 数据 库 ， 它 是 一 种 最 为 简单 的 NoSQL 数 据 库 。 


第 4 章 ” 列 出 了 理解 键 值 数据 库 的 结构 和 功能 所 需 的 专业 词汇 。 


第 5 章 讲解 了 键 值 数据 库 的 设计 原则 、 局 限 性 以 及 这 种 数据 库 所 用 的 设计 模式 。 该 章 还 包含 研究 案例 ， 以 描述 键 值 数据 库 
的 实际 用 法 。 


第 三 部 分 


这 一 部 分 讲解 了 使 用 范围 较为 广泛 的 文档 数据 库 ， 并 给 出 了 一 些 建 议 ， 告 诉 大 家 如 何 利用 文档 数据 库 来 有 效 地 实现 相关 的 应 
用 程序 。 


第 6 章 ” 摘 述 了 文档 数据 库 的 基本 特征 ， 并 介绍 了 无 模式 数据 库 这 一 概念 ， 同 时 还 讲解 了 文档 数据 库 的 一 些 基 本 操作 。 
第 7 章 ”使 读者 能 够 熟悉 文档 数据 库 所 用 到 的 一 些 专业 词汇 。 


第 8 章 深入 讨论 了 规范 化 (normalization) 和 去 规范 化 (denormalization) 的 优势 、 针 对 变化 的 文档 所 做 的 规划 、 编 制 
索引 的 技巧 ， 以 及 常见 的 设计 模式 。 该 章 最 后 有 个 研究 案例 ， 描 述 了 怎样 用 文档 数据 库 来 实现 一 款 商 务 程序 。 


第 四 部 分 


这 一 部 分 介绍 了 大 数据 应 用 程序 ， 并 讲述 了 列 族 数据 库 所 能 应 对 的 需求 。 


第 9 章 描述 了 Google 的 BigTable 数 据 库 所 用 的 设计 方式 ， 对 比 了 键 值 数据 库 、 文 档 数 据 库 以 及 列 族 数 据 库 之 间 的 差别 ， 
讲解 了 列 族 数 据 库 的 架构 。 


第 10 章 ”介绍 了 列 族 数 据 库 的 专用 词汇 。 如 果 你 一 直 不 太 明 白 anti-entropy ( 反 ) 的 意思 ， 那 就 应 该 看 看 这 一 章 。 

第 11 章 ”介绍 了 如 何 设计 表格 、 如 何 编制 索引 ， 以 及 如 何 为 数据 分 多， 同时 还 讲解 了 怎样 应 对 与 大 数据 有 关 的 需求 。 
第 五 部 分 

这 一 部 分 讲解 了 图 数据 库 ， 并 给 出 了 一 些 特别 适合 用 图 数据 库 来 解决 的 用 例 。 

第 12 章 介绍 了 图 与 网 络 的 建 模 ， 并 讲解 了 图 数据 库 的 优势 。 

第 13 章 ”介绍 了 图 论 (graph theory) 中 的 一 些 专用 词汇 。 图 论 是 数学 的 一 个 分 支 ， 它 为 图 数据 库 提供 了 理论 支持 。 


第 14 章 ”讲解 了 图 数据 库 的 设计 技巧 、 设 计时 所 应 避免 的 陷阱 ， 以 及 图 数据 库 的 查询 方式 。 该 章 最 后 给 出 了 一 个 案例 ， 告 
诉 大 家 如 何 用 图 数据 库 来 解决 商务 问题 。 


六 部 分 
这 一 部 分 告诉 大 家 如 何 运用 前 面 所 学 的 内 容 。 
第 15 章 ”根据 前 面 各 章 所 讲 的 内 容 提 出 了 一 些 建 议 ， 告 诉 大 家 在 为 应 用 程序 选择 数据 库 时 ， 需 要 考虑 哪些 因素 。 
第 七 部 分 
附录 A ” 列 出 了 每 章 末 尾 的 复习 题 ， 以 及 这 些 习题 的 答案 。 
附录 B 列 出 了 许多 (但 不 是 全 部 的 ) NoSQL 数 据 库 ， 其 中 很 多 数据 库 都 是 开源 或 免费 使 用 的 。 


术语 表 中 列 出 了 本 书 所 提 到 的 NoSQL 术 语 ， 以 及 这 些 术 语 的 定义 。 


第 一 部 分 “入门 


第 1 章 ”用 不 同 的 数据 库 应 对 不 同 的 需求 
第 2 章 ”NoSQL 数 据 库 的 种 类 


第 1 草 ”用 不 同 的 数据 库 应 对 不 同 的 需 3 


“这 世界 上 并 没有 新 鲜 的 事情 ， 如 果 你 认为 有 ， 那 就 说 明 你 对 菜 些 历史 还 不 够 了 解 。” 


哈里 .S$ . 杜 鲁 门 (Harry S.Truman) 


关系 型 数据 库 的 设计 

早期 的 数据 管理 系统 

关系 型 数据 库 的 演化 

促使 NoSQL 数 据 库 〈 也 就 是 非 单 纯 的 SQL 数据 库 或 非 SQL 的 数据 库 ) 诞生 的 原因 
案例 研究 


信息 技术 的 历史 ， 就 是 计算 速度 不 断 加 快 、 数 据 存储 量 不 断 增 大 的 历史 。 在 这 条 主线 之 下 ， 还 有 一 条 次 要 的 线索 ， 那 就 是 数 
据 管 理 技术 的 不 断 进 化 。 在 过 去 20 年 间 开 始 接触 数据 管理 系统 的 人 ， 可 能 会 认为 数据 管理 就 是 关系 型 数据 库 管 理 系统 的 代名词 。 
有 这 种 想法 ， 国 然 是 可 以 理解 的 ， 但 实际 上 ， 这 两 者 之 间 却 并 不 能 画 等 号 。 在 Mictosoft Access、Microsoft SQL Server、Oracle 的 
关系 型 数据 库 以 及 IBM 的 DB2 等 关系 型 数据 管理 系统 尚未 发 明 出 来 的 时 候 ， 计 算 机 科学 家 和 信息 技术 专家 就 已 经 根据 各 种 不 同 的 
架构 原则 ， 创 立 过 很 多 种 数据 管理 系统 了 。 近 些 年 来 ， 数 据 管理 领域 的 从 业 人 员 又 面临 着 一 些 新 出 现 的 数据 管理 问题 ， 而 这 些 问 
题 ， 催 生 了 一 批 新 型 的 数据 管理 系统 。 人 们 把 这 些 新 系统 ， 泛 称 为 NoSQL 数 据 库 。 


NoSQL 得 名 于 SQL ( 读 作 “sequel”) ， 而 SQL 是 大 多 数 天 系 型 数据 管理 系统 所 使 用 的 一 种 语言 。NoSQL 中 的 No， 既 可 以 
按 字面 意思 理解 成 “不 ”使 用 SQL 的 数据 库 ， 也 可 以 理解 成 “并 非 单纯 的 ”SQL 数据 库 。 此 处 着 重 考虑 NoSQL 数 据 库 中 与 SQL 不 
相同 的 那些 方面 。 


注解 ”如 果 想 深入 学 习 SQL， 请 参阅 John LViescas 与 Michael J.Hernandez 所 著 的 《SQL Queties for Mere Mortals》 (Addison- 


Wesley，2007) 。 


本 章 介绍 数据 管理 系统 及 数据 库 系 统 的 基本 概念 。 首 先 会 谈 到 早期 的 数据 库 管 理 系统 。 由 于 这 些 早 期 系统 有 诸多 限制 ， 所 以 
业界 研发 了 一 种 新 型 的 数据 库 ， 也 就 是 关系 型 数据 库 。 与 原来 的 数据 管理 系统 相 比 ， 关 系 型 数据 库 显 得 非常 先进 。 比 方 说 ， 上 旧式 
的 数据 系统 ， 即 便 在 看 似 较为 平常 的 操作 环境 下 使 用 ， 也 依然 有 可 能 出 现 数据 不 一 致 的 现象 ， 这 种 现象 称 为 数据 异常 ， 而 关系 型 


数据 库 则 能 够 避免 数据 异常 。 由 于 关系 型 数据 库 可 以 很 好 地 解决 各 种 数据 管理 问题 ， 所 以 整个 业界 都 广泛 地 使 用 它 来 制作 与 数据 
相关 的 应 用 程序 。 


1.1 关系 型 数据 库 的 设计 


关系 型 数据 库 的 设计 方式 ， 使 得 数 百 位 甚至 数 干 位 用 户 能 够 同时 访问 某 个 数据 库 ， 于 是 ， 大 企业 就 可 以 借 此 来 构建 复杂 的 应 
用 程序 ， 并 为 数 以 干 计 的 客户 提供 服务 。 然 而 ， 商 务 人 员 和 研究 者 后 来 又 针对 互联 网 设计 出 了 新 型 的 应 用 程序 ， 他 们 开始 意识 
到 ， 天 系 型 数据 库 未 必 总 是 能 够 满足 这 些 新 程序 的 需求 。 


Web 应 用 程序 可 能 也 需要 支持 成 十 上 万 的 用 户 ， 其 用 户 访问 量 有 时 甚至 比 传统 程序 还 多 。 但 是 ， 关 系 型 数据 库 的 某 些 重要 
特征 却 需要 耗费 大 量 的 执行 时 间 、 人 存储 空间 ， 以 及 运算 资源 。 比 方 说 ， 天 系 型 数据 能 够 保证 : 无 论 哪 位 用 户 来 读 取 数据 ， 它 都 能 
向 其 提供 协调 一 致 的 数据 视图 。 这 些 特征 对 于 某 些 应 用 程序 来 说 确实 相当 关键。 


例如 ， 要 从 储蓄 账户 中 拿 出 100 美 元 ， 转 到 支票 账户 [1 里面。 这 个 动作 要 分 为 两 个 步骤 : 首先 ， 从 储蓄 账户 中 减 掉 100 美 
元 ; 然后 ， 给 支票 账户 加 上 100 美 元 。 假 如 程序 刚刚 从 储蓄 账户 中 减 掉 100 美 元 ， 但 还 没有 来 得 及 将 其 添加 到 支票 账户 的 时 候 ， 
用 户 正好 要 查询 账户 余额 ， 那 就 会 发 现 账户 里 似乎 少 了 100 美 元 。 而 关系 型 数据 库 的 好 处 ， 则 在 于 它 能 够 把 原 有 的 两 个 操作 组 合 
起 来 ， 使 得 “从 储蓄 账户 中 减 掉 100 美 元 ”与 “给 支票 账户 里 加 上 100 美 元 ”这 两 个 步骤 ， 变 成 一 项 不 可 分 割 的 操作 。 这 样 的 
话 ， 用 户 对 账户 余额 的 查询 行为 ， 就 绝对 不 可 能 发 生 在 原 有 的 那 两 个 操作 之 间 了 ， 它 只 能 发 生 在 转账 开始 之 前 或 转账 完成 之 后 。 


电子 商务 程序 


我 们 再 来 考虑 电子 商务 程序 。 通 过 Web 应 用 程序 来 购物 的 客户 ， 可 以 从 卖家 的 产品 目录 中 选择 自己 所 需 的 商品 。 选 好 商品 
后 ， 可 以 将 其 添加 到 购物 车 中 。 这 里 的 购物 车 ， 当 然 不 是 指 真 的 购物 车 ， 它 只 是 个 比喻 ， 用 来 指 代 一 种 数据 结构 ， 该 结构 可 以 管 
理 用 户 所 选择 的 货品 。 我 们 只 需 选用 一 种 相当 简单 的 数据 结构 ， 就 可 以 实现 这 种 数据 管理 操作 。 数 据 结构 里 面 需要 存放 每 位 客户 
的 标识 符 以 及 该 客户 所 选择 的 货品 列表 。 (此 外 可 能 还 需要 存储 其 他 一 些 细节 信息 ， 比 方 说 ,我 们 要 记录 每 件 货 品 添加 到 购物 车 
中 的 日 期 与 时 间 ， 如 果 客 户 在 某 个 时 间 段 内 没有 进行 操作 ， 那 我 们 就 可 以 把 该 货品 从 购物 车 中 移 除 。 诸 如 此 类 的 细节 问题 ， 我 们 
目前 可 以 先 忽 略 掉 。) 


针对 上 述 需求 ， 可 以 采用 键 值 对 (key-value pair) 来 设计 数据 模型 。 标 识 顾客 身份 的 那个 唯一 ID 可 以 作为 键 ， 该 用 户 添加 
到 购物 车 中 的 货品 列表 可 以 作为 值 。 由 于 本 程序 并 不 需要 实现 账户 转账 之 类 的 操作 ， 所 以 我 们 也 用 不 到 那些 由 关系 型 数据 库 所 提 
供 的 管理 特性 。 


不 同 的 应 用 程序 需要 使 用 不 同类 型 的 数据 库 ， 而 这 恰恰 是 数据 管理 系统 在 过 去 几 十 年 间 不 断 得 以 发 展 的 动力 所 在 。 接 下 来 会 
看 到 ， 这 个 历史 还 将 继续 重演 。 早 期 数据 管理 系统 中 的 某 些 特性 ， 又 重新 出 现在 了 一 些 NoSQL 数 据 库 之 中 。 这 不 仅仅 是 巧合 。 
由 于 早期 的 数据 库 管理 系统 有 着 某 些 局 限 ， 所 以 基本 上 已 经 被 关系 型 数据 库 所 取代 了 。 


在 评价 NoSQl 数 据 库 时 ， 既 应 该 注意 这 些 新 型 数据 库 如 何 弥补 关系 型 数据 库 的 缺点 ， 同 时 也 应 该 意识 到 ， 它 们 与 早期 的 数 
据 管理 系统 一 样 ， 都 有 着 相同 的 局 限 性 。 


[1] checking account， 又 称 活 期 存款 账户 或 往来 账户 。 


译 者 注 


1.2 ”早期 的 数据 管理 系统 


关系 型 数据 库 是 20 世 纪 70 年 代 发 明 出 来 的 ， 而 早期 的 数据 管理 系统 ， 指 的 则 是 在 此 之 前 所 设计 的 那些 文件 系统 及 数据 库 系 
统 ， 其 中 包括 : 


“ 平面 文件 数据 管理 系统 
“ 分 层 数据 管理 系统 
-网络 数据 管理 系统 


基于 平面 文件 (flat file) 的 数据 管理 系统 ， 是 最 早出 现 的 一 种 计算 机 化 的 数据 管理 形式 。 而 分 层 数据 模型 和 网 络 数据 模 
型 ， 则 是 在 平面 文件 的 基础 上 改进 而 来 的 数据 管理 方式 。 


1.3 引发 变革 的 天 系 型 数据 库 


虽说 网 络 数据 管理 系统 和 分 层 数 据 管理 系统 对 平面 文件 系统 做 了 一 些 改进 ， 但 直到 E.F.Codd 在 1970 年 发 表 那 篇 曾 述 新 型 数 
据 库 设计 方式 的 论文 之 后 ， 数 据 管 理 技术 才 开 始 有 了 巨大 的 变化 。 新 的 天 系 型 数据 库 在 许多 重要 的 设计 层面 上 都 对 原来 的 数据 管 
理 模 型 做 了 改善 。 关 系 型 数据 库 基于 一 套 形式 化 的 数学 模型 ， 该 模型 使 用 关系 代数 来 描述 数据 及 数据 间 的 关系 。 关 系 型 数据 库 还 
能 把 数据 结构 的 逻辑 排 布 方式 同 这 些 结构 的 物理 存储 方式 相 分 离 。Codd 与 其 他 人 制定 了 关系 型 数据 库 的 设计 准则 ， 以 消除 某 些 
数据 异常 现象 ， 使 得 我 们 不 会 再 遭遇 数据 不 一 致 等 问题 。 


注解 ”关系 型 数据 库 有 很 多 方面 都 值得 深入 研究 ， 然 而 本 节 只 会 在 宏观 层面 上 极为 简略 地 阐述 某 些 关 键 特性 。 若 想 更 为 详细 
地 了 解 关 系 型 数据 库 ， 请 参阅 Michael J.Hetnandez 所 著 的 《Database Design for Mere Mottals: A Hands-On Guide to Relational 


Database Design》 (Addison Wesley, 2003) 。 


关系 型 数据 库 管 理 系统 


关系 型 数据 库 管理 系统 是 一 种 由 多 个 程序 所 组 成 的 应 用 系统 ， 系 统 里 的 那些 程序 负责 管理 数据 ， 并 为 该 系统 的 用 户 提供 添 
加 、 更 新 、 读 取 及 删除 等 功能 。 对 于 早 前 的 平面 文件 数据 存储 系统 来 说 ， 每 当 存 储 介质 里 面 创建 了 新 的 文件 ， 程 序 员 就 必须 编写 
新 的 程序 来 操作 该 文件 中 的 数据 ， 而 关系 型 数据 库 管理 系统 的 设计 方式 则 与 之 不 同 ， 它 采用 一 种 通用 的 语言 来 操作 数据 。 这 种 语 
言 叫做 SQL， 它 是 一 种 标准 化 的 语言 ， 可 以 兼容 各 种 关系 型 数据 库 管 理 系统 。 昌 说 SQL 指 的 是 一 门 关系 型 数据 库 语 言 ， 但 有 时 也 
可 以 作为 天 系 型 (relational) 这 一 概念 的 代称 。 例 如 ， 在 “SQL 数 据 库 ” 或 “NoSQL” 等 词语 中 ，SQL 就 可 以 视 为 relational 的 


简写 。 


大 多 数 关系 型 数据 库 管理 系统 (Relational Database Management System，RDBMS) 的 用 户 都 不 会 直接 去 使 用 数据 库 
软件 ， 而 是 会 使 用 由 软件 开发 者 所 编写 的 应 用 程序 ， 那 些 应 用 程序 负责 与 RDBM S 相 交互 。 为 了 更 好 地 讲解 关系 型 数据 库 ， 我 们 
应 该 把 RDBMS 和 典型 的 数据 库 应 用 程序 区 分 开 ， 并 分 别 阐 述 这 两 部 分 的 特性 。 


1. 关 系 型 数据 库 管理 系统 的 结构 
关系 型 数据 库 管 理 系统 是 由 一 套 管 理 数据 及 操作 数据 的 程序 所 组 成 的 。 要 实现 RDBMS， 至 少 应 该 实现 下 面 4 个 组 件 : 
. 存储 介质 管理 程序 


: 内 存 管理 程序 


把 上 述 4 个 组 件 联合 起 来 ， 就 可 以 为 RDBM 5 提供 核心 的 数据 管理 服务 和 数据 获取 服务 。 


(1) 存储 介质 管理 程序 


一 /一 


数据 库 系统 会 把 数据 持久 地 保存 在 磁盘 或 内 存盘 驱动 器 中 ， 以 实现 长 期 存储 。 数 据 库 的 存储 介质 可 能 会 直接 与 服务 器 或 运行 
数据 库 服务 的 其 他 设备 相连 。 比 方 说 ， 运 行 MySQL 数 据 库 的 笔记 本 电脑 就 可 以 把 数据 持久 地 保存 在 本 机 的 磁盘 驱动 器 中 。 而 对 
于 大 型 的 企业 来 说 ，IT 部 门 也 许 会 搭建 共享 的 存储 空间 。 在 这 种 情况 下 ， 我 们 会 把 整个 大 型 磁盘 阵列 合 起 来 当 作 一 项 存储 资源 ， 
而 数据 库 服 务 器 可 以 从 该 磁盘 阵列 中 读 取 数 据 ， 或 是 把 数据 保存 到 磁盘 阵列 之 中 (参见 图 1.9) 。 


本 地 存储 共享 存储 
图 1.9 ”本 地 存储 介质 与 共享 的 网 络 存储 介 


无 论 使 用 哪 一 种 存储 系统 ，RDBMS 都 需要 记录 每 条 数据 的 存储 位 置 。 基 于 磁带 的 存储 系统 有 个 缺点 ， 就 是 我 们 必须 从 头 至 
尾 地 搜寻 磁带 ， 方 能 获取 到 待 查询 的 数据 。 而 磁盘 及 内 存盘 等 设备 则 没有 这 种 限制 。 这 使 得 RDBMS 的 设计 者 能 够 改善 数据 的 获 
取 方 式 。 


和 基于 文件 的 数据 存储 系统 类 似 ，RDBMS 在 最 为 基本 的 层面 上 也 要 通过 读 取 数 据 块 及 写 入 数据 块 的 形式 来 运作 。 由 于 磁盘 
科技 的 进步 ， 我 们 很 容易 就 能 在 磁盘 中 创建 并 使 用 指向 数据 信息 的 索引 (index) 。 索 引 是 一 套 包含 定位 信息 的 数据 集 ， 其 中 的 
定位 信息 会 指明 由 数据 库 所 保存 的 那些 数据 块 分 别人 存储 在 磁盘 中 的 什么 位 置 上 。 索 引 是 根据 数据 中 的 某 些 属性 编制 出 来 的 ， 例 
如 ， 可 以 根据 客户 的 ID 或 姓名 来 编制 索引 。 每 一 条 索引 都 会 引用 某 个 实体 ， 并 给 出 这 个 实体 在 磁盘 或 闪存 中 的 存储 地 点 ， 位 于 
该 地 点 的 那 条 记录 存放 与 本 实体 有 关 的 信息 。 例 如 ，“Smith，Jane 18277372” 这 条 索引 ， 意 思 可 能 是 说 ， 在 磁盘 的 
18277372 这 个 位 置 上 有 个 数据 块 ， 该 数据 块 中 存放 了 与 Jane Smith 有 关 的 信息 。 


RDBMS 的 人 存储 管理 程序 不 仅 能 够 记录 数据 的 存储 位 置 ， 而 且 可 以 优化 数据 在 磁盘 中 的 排 布 方式 ， 并 对 数据 进行 压缩 以 节省 
存储 空间 。 此 外 ， 它 还 能 够 对 数据 块 进行 拷贝 ， 这 样 做 可 以 防止 由 于 磁盘 中 某 个 数据 块 损坏 而 导致 数据 丢失 。 


(2) 内 存 管 理 程序 


RDBMS 也 要 负责 在 内 存 中 管理 数据 。 一 般 来 说 ， 存 储 在 数据 库 里 的 数据 量 要 大 于 可 用 的 内 存量 。 因 此 ，RDBMS 的 内 存 管 
理 模 块 就 要 在 用 户 需要 使 用 某 份 数 据 的 时 候 ， 将 其 读 入 并 一 直 保 留 在 内 人 存 之 中 ， 等 到 用 户 不 再 使 用 此 数据 ， 或 是 系统 需要 为 其 他 
数据 腾 出 空间 时 ， 它 还 要 负责 将 该 数据 从 内 存 中 删除 。 由 于 从 内 存 中 读 取 数 据 的 速度 要 比 从 磁盘 中 读 取 数 据 快 好 几 个 数量 级 ， 
此 ，RDBMS 的 总 体 性 能 很 大 程度 上 取决 于 内 存 管理 程序 能 否 有 效 地 利用 内 存 。 


(3) 数据 字典 


数据 字典 也 是 RDBMS 的 一 部 分 ， 它 记录 了 与 数据 在 数据 库 中 的 存储 结构 有 关 的 信息 (参见 图 1.10) 。 数 据 字典 里 面包 含 多 
个 层次 的 数据 库 结构 信息 ， 其 中 有 : 


岗 要 (schema) 

. 表 (table) 

. 列 (column) 

. 索引 (index) 

* 约束 (constraint) 


视图 (view) 


图 1.10 ”由 数据 字典 所 管理 的 数据 结构 


纲要 是 由 表 、 视 图 、 索 引 ， 以 及 所 有 与 这 套数 据 有 关 的 其 他 结构 所 组 成 的 集合 。 一 般 来 说 ， 我 们 应 该 为 每 一 种 常见 的 数据 使 
用 方式 单独 创建 一 份 纲要 。 例 如 ， 应 该 给 产品 库存 、 应 收 账 款 、 雇 员 及 其 福利 分 别 创建 一 份 纲要 。 


表格 是 一 种 与 实体 有 关 的 数据 结构 ， 而 实体 则 用 来 描述 一 种 与 RDBMS 所 支持 的 业务 或 操作 相关 联 的 真实 事物 或 逻辑 概念 。 
在 一 份 描述 人 力 资源 数据 的 纲要 中 ， 可 能 会 出 现 雇员 、 经 理 及 部 门 等 实体 。 在 一 份 描述 库存 数据 的 纲要 中 ， 可 能 有 仓库 、 产 品 及 
供应 商 等 实体 。 


表格 是 由 列 组 成 的 。 列 中 含有 单独 的 信息 单元 。 一 张 存 放 雇 员 信 息 的 表格 可 能 包含 列 : 雇员 名 字 、 姓 氏 、 街 道 地 址 、 城 市 、 
州 、 邮 编 、 出 生日 期 及 工资 。 每 一 列 都 会 与 一 种 数据 类 型 相关 联 ， 该 类 型 指出 了 本 列 能 够 存放 什么 样 的 数据 。 例 如 ， 表 示 雇 员 名 
字 的 这 一 列 ， 应 该 存放 字符 数据 ; 表示 出 生日 期 的 这 一 列 ， 应 该 是 日 期 类 型 ， 表 示 工 资 的 这 一 列 ， 应 该 是 某 种 数字 类 型 或 货币 类 
型 。 


正如 早 前 所 述 ， 索 引 是 一 种 旨 在 改善 RDBMS 数 据 获 取 速 度 的 数据 结构 。 在 一 张 存 放 雇 员 信 息 的 表格 中 ， 可 能 会 有 一 份 根 据 
雇员 姓氏 所 编制 的 索引 ， 该 索引 使 得 我 们 可 以 按照 雇员 的 姓氏 来 快速 地 搜寻 这 张 表 。 


约束 是 一 种 规则 ， 它 可 以 进一步 限制 某 列 所 能 存放 的 数据 值 。 与 该 列 相关 联 的 数据 类 型 能 够 把 类 型 不 相符 的 错误 数据 拦住 ， 


使 它 无 法 存储 到 这 一 列 中 。 比 方 阅 ， 如 果 程 序 不 小 心 把 某 个 数字 写 入 雇员 名 字 这 一 列 ， 那 么 数据 库 就 会 拒绝 这 一 操作 。 但 是 ， 对 
于 存放 工资 的 那 一 列 来 说， 仪 仪 依靠 数据 类 型 并 不 能 拦住 某 些 负数 ， 因 为 那些 负数 也 是 有 效 的 数值 或 货币 值 。 此 时 ， 可 以 给 该 列 
施加 一 条 约束 ， 规 定 薪水 的 值 必须 大 于 0。 一 般 来 说 ， 约 束 都 是 根据 业务 规则 来 订立 的 ， 而 这 些 规则 与 数据 所 要 表示 的 实体 及 操 
作 有 天 。 


视图 是 由 一 张 或 多 张 表格 的 相关 列 ， 以 及 根据 这 些 列 所 算出 的 数值 所 构成 的 。 视 图 可 以 用 来 限定 用 户 所 能 看 到 的 数据 范围 。 
比方 说 ， 如 果 雇 员 表 格 中 含有 工资 信息 ， 那 么 可 以 根据 该 表格 创建 一 份 不 含 工资 信息 的 视图 。 对 于 只 需 查询 雇员 姓名 及 住址 的 那 
部 分 用 户 来 说 ， 他 们 可 以 使 用 这 张 视图 ， 而 无 需 访问 原来 的 表格 。 视 图 还 可 以 把 多 张 表格 中 的 数据 合并 起 来 ， 比 方 阅 ， 如 果 有 一 
张 表 格 包 含 了 雇员 的 姓名 ， 另 一 张 表格 详细 描述 了 所 有 雇员 在 公司 内 的 职位 晋升 状况 ， 那 么 就 可 以 把 这 两 张 表格 合并 为 一 张 视 
图 。 


(4) 查询 语言 


RDBMS 的 查询 语言 能 够 执行 两 类 操作 ， 一 类 是 数据 结构 的 定义 操作 ， 另 一 类 是 数据 的 处 理 操作 。 关 系 型 数据 库 的 查询 语言 
叫做 SQL， 该 语言 包含 执行 这 两 类 操作 所 需 的 语句 。 


"SQL 数据 定义 语言 


SQL 之 中 有 一 些 语句 ， 令 程序 员 能 够 创建 并 删除 纲要 、 表 格 、 视 图 、 索 引 、 约 束 ， 以 及 其 他 数据 结构 ， 还 有 另外 一 些 语句 ， 
可 以 用 来 在 表格 中 添加 列 、 删 除 列 ， 或 是 给 表格 设置 读 取 权限 及 写 入 权限 。 下 面 这 条 范例 语句 ， 会 创建 一 份 纲要 : 


CREATE SCHEMA humresc 
下 面 这 条 范例 语句 ， 可 以 创建 一 张 表 : 


CREATE TABLE employees ( 
emp_id int, 
emp first name varchar (25), 
emp last name varchar(25), 
emp address varchar (50), 
emp city varchar (50) ， 
emp state varchar (2) ， 
emp Zip varchar(5), 
emp position title varchar (30) 


) 


此 处 并 不 需要 太 过 关注 语句 中 的 细节 ， 只 要 能 体会 到 SQL 语言 是 一 种 声明 式 (declarative) 的 语言 (1| 即 可 。 在 上 面 那 条 语句 
中 ， 并 没有 告诉 计算 机 应 该 如 何 创建 某 个 数据 结构 。 也 就 是 说 ， 并 没有 命令 计算 机 必须 在 某 个 特定 的 内 存 地 址 上 面 创建 空闲 的 数 
据 块 ， 而 是 向 RDMBS 描 述 了 所 要 创建 的 数据 结构 中 应 该 包含 什么 样 的 数据 。 在 早 前 的 第 一 条 语句 中 ， 我 们 创建 了 名 为 humresc 
的 纲要 ， 其 中 的 humresc 是 human resources (人 力 资源 ) 一 词 的 简称 。 然 后 ， 在 接 下 来 的 这 条 语句 中 ,创建 了 一 张 包含 8 个 列 
的 表格 ， 并 将 该 表 命 名 为 employee。 其 中 ，varchar 表 示 长 度 可 变 的 字符 类 型 。varchar 后 面 的 括号 中 所 填 的 数字 表示 该 列 的 最 
大 长 度 。int 是 integer 一 词 的 缩写 ， 它 表明 emp_id 这 一 列 中 的 数据 应 该 是 整数 类 型 。 


一 


“SQL 数据 操作 语言 


有 了 数据 库 纲要 及 相关 的 表格 之 后 ， 就 可 以 开始 向 其 中 添加 数据 ， 并 操作 这 些 数据 了 。 SQL 数据 操作 语言 提供 了 下 列 几 种 类 
型 的 语句 : 


“ 插入 数据 


.更 新 数据 


“ 删除 数据 


. 选取 数据 (也 就 是 读 取 数据 ) 
下 面 这 条 INSERT 语 句 可 以 向 employee 表 格 中 插入 数据 : 


INSERT INTO employee (emp id, first name, last name) 
VALUES (1234, 'Jane', 'Smith') 


这 条 语句 会 向 表格 中 添加 新 行 ， 该 行 的 emp_id 为 1234，first_name 为 'Jane'，last_name 为 'Smith'。 在 本 表格 中 ， 这 一 行 
的 其 他 列 数值 均 为 NULL。NULL 是 一 种 特殊 的 数值 ， 用 来 表示 某 行 数据 的 某 一 列 还 没有 指定 具体 的 值 。 
通过 更 新 语句 和 删除 语句 ， 用 户 可 以 修改 现 有 各 行内 的 数值 ， 并 移 除 表格 中 已 有 的 数据 行 。 


SELECT 语句 可 以 从 数据 库 中 读 取 数 据 。 例 如 : 


SELECT emp id, first name, last name 
FROM employee 


上 面 这 条 语句 ， 将 会 产生 下 面 的 输出 信息 : 


emp_id first name last name 


在 SELECT、UPDATE 及 DELETE 等 数据 操作 语句 中 ， 可 以 表达 出 非常 复杂 的 操作 形式 ， 并 且 能 够 用 相当 复杂 的 逻辑 来 指定 该 
操作 所 针对 的 数据 行 。 


关系 型 数据 库 管理 系统 提供 了 存储 管理 、 内 存 管理 、 数 据 字 典 及 查询 语言 4 个 部 分 。 尽 管 程序 员 与 软件 开发 者 可 能 更 愿意 直 
接 使 用 SQL 来 访问 数据 库 ， 但 是 ， 对 于 普通 的 计算 机 用 户 来 说 ， 他 们 可 以 考虑 通过 数据 库 应 用 程序 来 使 用 这 些 关 系 型 数据 库 。 


2. 使 用 关系 型 数据 库 管理 系统 的 应 用 程序 所 具备 的 结构 

宽泛 地 来 说 ， 我 们 可 以 认为 ， 使 用 关系 型 数据 库 的 商务 程序 包含 下 列 3 个 主要 组 件 : 
. 用户 界面 

. 业务 逻辑 

. 数据 库 代码 


用 户 界 面 是 为 了 支持 用 户 的 工作 流程 而 设计 的 。 例 如 ， 使 用 人 力 资源 应 用 程序 的 用 户 ， 也 许 想 查询 某 位 员工 的 工资 、 修 改 某 


位 员工 的 职位 ， 或 是 添加 新 的 员工 。 应 用 程序 所 提供 的 菜单 以 及 其 他 一 些 抽象 控件 能 够 触发 相应 的 界面 ， 使 得 用 户 可 以 在 界面 中 
输入 数据 、 更 新 数据 ， 并 把 修改 后 的 数据 存储 至 | 数据库 中 。 在 整个 流程 中 ， 用 户 既 不 需要 使 用 SQL， 也 不 需要 接触 RDBMS。 


业务 逻辑 是 程序 中 的 一 个 部 分 ， 它 会 执行 相应 的 计算 工作 ， 并 检测 相关 数据 是 否 符合 业务 规则 。 通 过 业务 规则 ， 可 以 判断 出 
雇员 的 年 龄 是 否 与 所 要 求 的 相符 。 比 方 说 ， 在 为 某 个 雇员 授予 酒吧 侍者 (bartender) 的 头衔 时 ,程序 可 以 预先 验证 该 雇员 的 年 
龄 是 否 已 超过 21 岁 。 业 务 规则 可 以 用 Python、Visual Basic 或 Java 等 编程 语言 来 实现 ， 也 可 以 在 SQL 里 面 实 现 。 


数据 库 的 代码 就 是 SELECT、INSERT、UPDATE 及 DELETE 等 语句 的 集合 ， 这 些 语句 都 可 以 在 数据 库 上 面 执行 操作 ， 而 用 户 
通过 程序 界面 所 能 完成 的 那些 操作 则 与 这 些 语句 之 间 有 对 应 关系 。 


由 于 有 了 数据 库 应 用 程序 ， 所 以 即便 用 户 不 是 程序 员 ， 也 依然 能 够 使 用 关系 型 数据 库 及 其 他 类 型 的 数据 库 。 
3. 关 系 型 数据 库 的 局 限 


过 去 数 十 年 间 ， 关 系 型 数据 库 一 直 是 数据 库 应 用 程序 领域 的 主导 数据 库 类 型 。 它 解决 了 基于 平面 文件 的 数据 管理 系统 、 分 层 
数据 库 及 网 络 数据 库 等 产品 的 诸多 缺点 ， 但 是 ， 自 从 Web 应 用 程序 诞生 之 后 ， 关 系 型 数据 库 自 身 的 局 限 性 也 开始 变 得 越 来 越 突 
出 了 。 


Google、LinkedlIn、Yahool 及 Amazon 等 公司 发 现 ， 现 在 他 们 必须 支持 数量 极为 庞大 的 Web 用 户 ， 而 不 是 像 原来 那样 只 
需 支 持 一 小 部 分 商务 用 户 即 可 。 从 前 的 大 型 企业 中 ， 也 会 有 上 干 名 用 户 同时 访问 一 个 数据 库 应 用 程序 的 情况 ， 可 是 ,现在 的 网 络 
公司 所 面 对 的 用 户 数量 要 远 远 超过 从 前 。 


对 于 这 种 数据 量 较 多 ， 且 用 户 群 极为 庞大 的 Web 应 用 程序 来 说 ， 其 开发 者 要 求 数据 库 必须 能 够 提供 下 列 几 个 方面 的 支持 : 
" 对 大 批量 读 写 操作 的 处 理 能 力 
. 较 低 的 延迟 时 间 和 较 短 的 响应 时 间 
* 较 高 的 数据 可 用 性 


关系 型 数据 库 很 难 满足 上 述 需求 。 当 然 ， 在 Web 时 代 来 临 之 前 ， 用 户 也 一 直 要 求 改进 数据 库 的 性 能 ， 但 问题 是 过 去 所 用 的 
优化 技术 已 经 无 法 应 对 当前 的 商业 公司 对 操作 规模 、 用 户 量 及 数据 量 的 需求 了 。 从 前 ， 如 果 发 现 天 系 型 数据 库 运 行 得 比较 慢 ， 可 
以 购买 更 多 的 CPU、 安 装 更 大 的 内 存 ， 或 是 改 用 更 快 的 存储 设备 。 但 是 ， 这 些 方案 都 要 人 花费 一 定 的 资金 ， 而 且 其 效果 比较 有 
限 。 因 为 某 一 台 服 务 器 所 能 支持 的 CPU 数量 及 内 存 容量 是 有 限制 的 。 数 据 库 的 设计 者 可 以 采用 性 能 较 高 的 技术 来 重新 设计 数据 
库 纲要 ， 但 这 样 做 却 使 得 数据 更 有 可 能 会 出 现 异常 。 (这 些 技术 也 称 为 去 规范 化 (denormalization) 技术 。) 


还 有 个 办 法 ， 是 把 关系 型 数据 库 放 在 多 台 服 务 器 中 运行 。 这 个 办 法 虽然 有 可 能 实现 出 来 ， 但 是 多 台 服 务 器 同时 操作 某 一 个 关 
系 型 数据 库 管 理 系 统 ， 还 是 相当 复杂 的 ， 这 也 使 得 长 期 维护 工作 变 得 更 加 困难 。 此 外 ， 如 果 想 令 多 台 服 务 器 中 的 某 一 组 操作 必须 
全 部 成 功 或 全 部 失败 ， 那 么 在 支持 这 样 的 一 组 操作 时 ， 就 会 出 现 性 能 问题 。 像 这 种 必须 完全 成 功 或 必须 彻底 失败 的 一 组 操作 ， 也 
称 为 事务 (transaction) 。 当 数据 库 集 群 中 的 服务 器 数量 增多 之 后 ， 执 行 数据 库 事务 所 需 的 开销 也 会 越 来 越 大 。 


尽管 有 上 述 困难 ， 但 是 像 Facebook 这 样 的 公司 仍然 会 使 用 MySQL 关 系 型 数据 库 来 处 理 某 些 操作 。 他 们 有 专门 的 MySQL 团 
队 负 责 改 善 MySQL 的 局 限 性 ， 并 扩充 其 适用 范围 。 然 而 ， 很 多 公司 都 没有 那么 多 的 人 力 ， 所 以 对 于 这 些 公 司 来 说 ， 如 果 天 系 型 
数据 库 不 符合 需求 ， 那 就 可 以 考虑 使 用 NoSQL 数 据 库 。 


[1 也 称 宣告 式 语言 、 陈 述 式 语言 、 说 明 式 语言 ， 与 命令 式 (imperative) 语言 相对 。 译 者 注 


14 众生 NosQl 数据库 ( 非 单 纯 的 SQl 数据 库 / 非 SQL 数据 库 ) 的 动因 


实际 工作 中 的 数据 管理 问题 ， 促 使 数据 库 管理 领域 的 专业 人 士 和 软件 设计 者 开始 研发 NoSQL 数 据 库 。Web 应 用 程序 要 面 对 
的 用 户 至 少 都 是 数 以 万 计 的 ， 所 以 这 种 程序 很 难 用 关系 型 数据 库 来 实现 。 对 于 大 规模 的 数据 管理 任务 来 说 ， 数 据 管 理 系 统 的 下 面 
4 项 特征 显得 尤为 重要 : 


. 可 伸缩 性 由 (scalability) 

.成 本 开销 (cost) 

. 灵活 性 (flexibility) 

. 可 用 性 (availability) 

由 于 每 个 Web 程 序 的 需求 不 同 ， 所 以 其 中 某 些 特征 可 能 会 比 其 他 特征 更 为 紧要 。 


国 对 于 同时 表示 缩减 和 扩张 这 两 种 含义 的 scalability， 本 书 会 酌情 将 其 译 为 可 伸缩 性 或 可 缩放 性 ， 而 对 于 单纯 表示 扩张 的 
scalability， 则 将 其 译 为 可 扩展 性 。 译 者 注 


1.5 小结 


数据 库 管理 系统 会 随 着 应 用 程序 的 需求 而 不 断 演 进 ， 但 是 在 演进 过 程 中 ， 却 要 受制 于 当时 的 计算 能 力 和 存储 技术 。 早 期 的 数 
据 管理 系统 ， 要 依赖 于 存储 在 平面 文件 中 的 记录 。 这 些 系统 提供 了 长 期 保存 数据 的 基本 功能 ， 同 时 也 有 着 较 多 的 缺陷 ， 如 搜寻 操 
作 和 数据 获取 操作 的 速度 比较 慢 、 重 复数 据 比 较 多 、 安 全 性 比较 差 等 。 分 层 数 据 库 是 对 平面 文件 系统 的 一 种 改进 。 分 层 系统 允许 
在 父 记录 与 子 记录 之 间 创 建 上 下 级 关系 。 这 样 做 能 够 减少 重复 的 数据 ， 但 并 不 能 彻底 消除 它们 。 网 络 数 据 库 进 一 步 改善 了 分 层 数 
据 库 ， 它 允许 在 多 个 父 节点 与 多 个 子 节点 之 间 建 立 天 系 。 这 种 关系 又 称 为 多 对 多 关系 。 


关系 型 数据 库 的 出 现 ， 是 对 平面 文件 数据 库 、 分 层 数 据 库 及 网 络 数据 库 的 一 项 重大 改进 。 这 种 数据 库 建立 在 坚实 的 数学 基础 
之 上 。 天 系 型 数据 库 的 设计 规则 可 以 消除 诸如 数据 不 一 致 等 各 种 数据 寞 常 现象 。 在 商务 应 用 程序 中 ， 这 种 数据 库 基本 上 已 经 取代 
了 其 他 类 型 的 数据 管理 系统 。 


尽管 天 系 型 数据 库 取 得 了 广泛 的 成 功 ， 但 因为 电 商 网 站 和 社交 网 站 数量 激增 ， 所 以 业界 又 对 数据 管理 系统 提出 新 的 需求 ， 希 
望 使 用 一 种 易于 伸缩 、 成 本 低廉 、 较 为 灵活 且 高 度 可 用 的 数据 库 系统 。 其 中 的 某 些 需求 在 特定 的 环境 下 ， 固 然 可 以 用 关系 型 数据 
库 实 现 出 来 ， 但 是 那样 做 的 难度 比较 大 ， 而 且 成 本 可 能 会 非常 高 。 


NoSQL 数 据 库 就 是 为 了 解决 关系 型 数据 库 管 理 系 统 的 局 限 而 创设 的 。RDBMS 取 代 了 早 前 的 平面 文件 数据 库 、 分 层 数据 库 及 
网 络 数据 库 ， 但 是 NoSQL 数 据 库 却 并 不 打算 取代 RDBMS。 二 者 之 间 是 一 种 互补 的 关系 ， 它 们 都 会 从 对 方 身 上 学 习 优 秀 的 特性 ， 
而 且 都 可 以 用 来 应 对 需求 日 益 复杂 且 日 益 严 奇 的 应 用 程序 。 


1.6 “案例 研究 


本 书 将 会 围绕 运输 管理 公司 所 需 的 一 组 应 用 程序 来 进行 案例 研究 。 这 家 名 为 TransGlobal Transport and Shipping 的 公 


司 ， 虽 然 是 虚构 出 来 的 ， 但 它 的 需求 却 非常 现实 。 在 学 习 四 种 主要 的 NoSQL 数 据 库 时 ， 要 思考 如 何 用 每 一 种 数据 库 来 实现 公司 
中 某 一 个 具体 的 应 用 程序 。 


该 公司 需要 研发 四 个 主要 的 应 用 程序 ， 它 们 分 别 需要 实现 下 列 功能 : 
. 构建 货运 订单 
* 管理 客户 托运 的 物品 清单 或 物品 的 详细 描述 信息 
:维护 客户 数据 库 
: 优化 运输 路 线 


在 稍 后 的 章节 中 会 看 到 ， 这 四 种 不 同 的 需求 可 以 分 别 用 四 种 数据 库 系 统 来 实现 。 本 书 将 会 讲解 如 何 用 四 种 类 型 的 NoSQL 数 
据 库 来 满足 TransGlobal Transport and Shipping 公 司 的 信息 管理 需求 。 


区 请 参阅 本 书 第 2 章 ， 以 详细 了 解 这 四 种 NoSQL 数 据 库 


1.7 复习 


阅 


1. 在 基于 文件 的 数据 管理 系统 中 ， 如 果 记 录 的 排 布 形式 发 生 了 变化 ， 那 么 还 要 同时 修改 系统 的 哪 一 个 部 分 ? 
2. 分 层 数据 管理 系统 支持 哪 一 种 关系 ? 
a. 父 节点 与 子 节点 关系 


b. 多 对 多 关系 


d. 不 允许 创建 关系 

3. 网 络 数据 管理 系统 支持 哪 种 关系 ? 

a. 父 节点 与 子 节点 关系 

b. 多 对 多 关系 

C. 父 子 节点 关系 和 多 对 多 关系 

d. 不 允许 创建 关系 

4. 写 出 一 条 SQL 数 据 操作 语言 的 范例 语句 。 
5. 写 出 一 条 SQL 数 据 定义 语言 的 范例 语句 。 
6. 什 么 叫做 纵向 扩展 ? 


7. 什 么 叫做 横向 扩展 ? 


8.NoSQl 数 据 库 与 天 系 型 数据 库 之 间 是 否 会 像 天 系 型 数据 库 与 早期 数据 管理 系统 之 间 那 样 呈现 相互 蔡 代 的 关系 ? 
9. 关 系 型 数据 库 管 理 系统 (RDBMS) 的 4 个 必 备 组 件 是 什么 ? 
10. 数 据 库 应 用 程序 通常 包含 哪 3 个 主要 组 件 ? 


11. 促 使 数据 库 设计 者 与 其 他 IT 从 业者 研发 并 使 用 NoSQL 数 据 库 的 4 个 动机 是 什么 ? 
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Viescas, John L., and Michael J.Hernandez.SQL Queries for Mere Mor-tals.Reading, MA: Addison- 
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第 2 草 ”NoSQL 数 据 库 的 种 类 


“风格 没有 变化 的 事物 ， 无 法 令 人 满意 。” 


一 一 弗 兰 西 斯 : 培根 (Francis Bacon) 
本 章 内 容 
分 布 式 数据 库 的 数据 管理 
ACID 及 BASE 原 则 
分 布 式 数据 库 的 种 类 


NoSQL 数 据 库 所 提供 的 各 类 解决 方案 ， 能 够 处 理 很 多 种 数据 管理 问题 。NoSQL 数 据 库 一 般 都 要 运行 在 多 台 服 务 器 上 面 ,但 
这 并 不 是 一 项 严格 的 规定 。 如 果 某 系统 不 单单 运行 在 一 台 计 算 机 中 ， 而 是 运行 于 多 人 台 服 务 器 中 ， 那 就 把 该 系统 称 为 分 布 式 系统 
(参见 图 2.1) 。 


图 2.1 单 服务 器 系统 与 分 布 式 系统 


本 章 首先 要 列 出 分 布 式 数 据 库 的 常见 特性 ， 以 及 它们 所 面临 的 挑战 。 由 于 NoSQL 数 据 库 通 常 在 分 布 式 环境 中 使 用 ， 因 此 本 
章 会 多 花 一 些 篇 幅 来 讨论 多 台 服 务 器 在 使 用 同一 份 逻 辑 数据 库 时 所 遇 到 的 数据 管理 问题 。 后 续 各 节 所 讲 的 大 部 分 内 容 针对 的 都 是 
分 布 式 系统 ， 而 不 是 那 种 只 在 一 台 服 务 器 中 运行 NoSQL 数 据 库 的 环境 。 


第 1 章 介绍 了 NoSQL 数 据 库 诞 生 的 原因 ， 其 中 包括 业界 对 可 伸缩 性 、 灵 活性 、 成 本 控制 及 可 用 性 的 需求 。 有 一 种 常见 的 方案 
可 以 满足 这 些 需 求 ， 那 就 是 设计 跨越 多 台 服 务 器 的 数据 管理 系统 ， 这 种 系统 也 叫做 分 布 式 系统 。 


除了 早 前 提 到 | 的 那些 优势 之 外 ，NoSQL 数 据 库 在 某 种 程度 上 还 可 以 简化 服务 器 的 管理 。 现 在 只 需 在 集群 中 添加 或 移 除 服 务 
器 就 可 以 了 ， 而 不 用 像 原 来 那样 给 某 一 台 服 务 器 添加 或 移 除 内 存 及 CPU 等 资源 。 而 且 ， 某 些 NoSQL 数 据 库 还 可 以 自动 判断 出 是 
否 有 新 的 服务 器 添加 到 集群 之 中 ， 或 是 否 有 服务 器 从 集群 中 移 除 。 


许多 NoSQL 数 据 库 都 要 利用 分 布 式 系统 的 某 些 特性 ， 但 是 ， 它 们 管理 数据 时 所 采用 的 策略 可 能 会 有 所 不 同 。 四 种 主要 的 
NoSQL 数 据 库 类 型 分 别 是 : 


键 值 数 据 库 。 此 类 数据 库 使 用 一 种 基于 键 和 值 的 简单 模型 ， 其 中 键 是 查询 数据 时 所 依据 的 标识 符 ， 而 值 则 是 与 键 相关 联 的 
数据 。 


* 文档 数据 库 。 此 类 数据 库 也 使 用 标识 符 来 查询 相关 的 值 ， 但 是 这 种 值 通常 要 比 一 般 的 键 值 数 据 库 所 存储 的 那些 值 更 为 复 
条。 文档 就 是 数据 项 的 集合 ， 它 们 存储 在 一 种 灵活 的 结构 之 中 。 


* 列 族 数据 库 。 此 类 数据 库 具 备 关系 型 数据 库 的 某 些 特征 ， 例 如 ， 它 能 够 把 数据 划分 到 很 多 列 之 中 。 但 为 了 提升 性 能 ， 列 族 
数据 库 可 能 会 削减 关系 型 数据 库 的 某 些 能 力 ， 如 表格 的 link (链接 ) 或 join (连接 ) 等 机 制 。 


* 图 数据 库 。 此 类 数据 库 适合 为 对 象 及 对 象 间 的 关系 建 模 。 


由 于 分 布 式 系 统 是 许多 NoSQL 数 据 库 的 基础 ， 所 以 必须 讨论 一 些 与 分 布 式 系统 的 数据 管理 有 关 的 问题 。 在 概述 了 分 布 式 系 
统 所 面临 的 挑战 及 其 局 限 性 之 后 ， 会 讲解 键 值 数据 库 、 文 档 数 据 库 、 列 族 数 据 库 及 图 数据 库 ， 并 将 这 些 数 据 库 与 关系 型 数据 库 相 
对 比 。 


2.1 分布 式 数据 库 的 数据 管理 


在 讲述 分 布 式 数据 库 的 细节 之 前 ， 先 来 简单 地 分 析 一 般 的 数据 库 系统 。 数 据 库 系 统 必须 要 完成 两 项 任务 : 存储 数据 及 获取 数 
据 。 为 了 满足 这 两 项 需求 ， 数 据 库 管理 系统 应 该 做 好 下 面 三 件 事 : 


* 持久 地 存储 数据 
“ 维护 数据 的 一 致 性 
* 确保 数据 的 可 用 性 


本 节 将 会 告诉 大 家 ， 分 布 式 系统 是 采用 什么 方式 来 满足 这 些 需求 的 ， 而 且 还 会 讲述 分 布 式 系统 的 局 限 性 。 为 了 确保 整个 系统 
能 够 在 集群 中 的 某 些 服务 器 出 现 网 络 故障 时 ， 依 然 可 以 正常 运作 ， 需 要 在 一 致 性 、 可 用 性 及 保护 措施 之 间 进 行 权 衡 ， 而 在 权衡 的 
时 候 尤 其 要 考虑 到 分 布 式 系统 的 这 些 局 限 。 


2.2 ACID 与 BASE 


在 化 学 中 ，acid ( 酸 ) 是 指 pH 小 于 7 的 化 学 品 ，base ( 碱 ) 则 是 指 PH 大 于 7 的 化 学 品 。 但 是 ， 数 据 库 领域 中 的 ACID 与 BASE 
都 和 化 学 无 关 。ACID 是 个 首 字母 缩 略 词 ， 它 是 指 关 系 型 数据 库 管理 系统 的 四 项 特征 ;BASE 也 是 个 首 字母 缩 略 词 ， 用 来 指 代 
NoSQL 数 据 库 的 四 种 常见 性 质 。 


2.3 ”四 种 NoSQL 数 据 库 类 型 

分 布 式 数据 库 有 很 多 种 形式 。 虽 然 也 有 分 布 式 的 关系 型 数据 库 ， 但 是 那些 数据 库 并 不 在 本 书 的 讨论 范围 之 内 。 我 们 关注 的 是 
分 布 式 的 NoSQL 数 据 库 。 下 面 是 四 种 使 用 范围 较 广 的 NoSQL 数 据 库 : 

' 键 值 对 数据 库 

文档 数据 库 

“ 列 族 数 据 库 

“ 图 数据 库 


NoSQL 数 据 库 不 一 定 要 实现 成 分 布 式 系 统 ， 很 多 数据 库 也 可 以 只 运行 在 一 台 服 务 器 上 面 。 但 是 ， 如 果 想 利用 NoSQL 数 据 库 
中 的 某 些 独特 功能 ， 那 就 需要 将 其 部 署 为 分 布 式 系 统 了 。 在 极度 关注 可 用 性 和 可 伸缩 性 的 场合 ， 值 得 把 NoSQL 数 据 库 部 署 在 多 
台 服 务 器 上 面 。 然 而 一 旦 进入 分 布 式 系统 的 世界 ， 就 必须 在 某 些 因素 之 间 做 出 权衡 ， 这 些 技术 决策 在 原来 那 种 单 服务 器 的 环境 中 
是 无 需 考虑 的 。 设 计 NoSQL 数 据 库 及 相关 的 应 用 程序 时 ， 需 要 在 可 伸缩 性 、 可 用 性 、 一 致 性 、 分 区 保护 性 以 及 持久 性 之 间 求 得 
平衡 。 如 何在 这 些 因素 之 间 权 衡 是 使 用 NoSQL 数 据 库 时 的 核心 问题 ， 所 以 本 书 会 反复 地 强调 这 些 话题 。 


2.4 小 结 


NoSQL 数 据 库 通 常 部 署 在 服务 器 集群 中 。 如 果 数 据 库 系统 运行 在 多 台 服 务 器 上 面 ， 并 且 需 要 在 这 些 服 务 器 之 间 进 行 协 调 ， 


那么 这 样 的 系统 就 称 为 分 布 式 系统 。 以 分 布 式 的 方式 来 使 用 NoSQL 数 据 库 时 ， 必 须 设 法 面 对 一 些 难题 ， 而 这 些 难题 都 是 由 分 布 
式 的 实现 方式 所 引发 的 。 分 布 式 系统 有 助 于 提升 可 伸缩 性 及 可 用 性 ， 但 是 却 难以 保证 各 台 服 务 器 之 间 的 数据 一 致 性 。 当 网 络 发 生 
故障 时 ， 分 布 式 数据 库 系 统 也 有 可 能 出 问题 ， 因 为 某 些 服务 器 可 能 无 法 给 系统 中 的 其 他 服务 器 发 送 消息 。 


分 布 式 系 统 的 各 种 特性 使 得 NoSQL 数 据 库 的 设计 者 必须 根据 另外 一 套 原 则 来 构建 这 些 数据 管理 系统 。 与 关系 型 数据 库 所 支 
持 的 ACID 事务 不 同 ，NoSQL 数 据 库 所 坚持 的 是 BASE 原 则 。ACID 事 务 是 具备 原子 性 、 一 致 性 、 隔 离 性 及 持久 性 的 事务 ， 而 
BASE 原 则 可 以 保证 数据 库 具 备 基 本 可 用 性 、 软 状态 及 最 终 一 致 性 。 ( 某 些 NoSQL 数 据 库 也 正在 致力 于 支持 ACID 事务 ， 至 少 它 
们 打算 在 某 些 使 用 场景 中 支持 这 种 事务 。 ) 


本 章 所 描述 的 这 四 种 NoSQL 数 据 库 ， 都 必须 能 够 应 对 分 布 式 系 统 中 的 各 种 困难 。 这 四 种 NoSQL 数 据 库 系 统 之 间 的 区 别 ， 主 
要 表现 在 建 模 时 所 使 用 的 基本 数据 结构 上 面 。 由 于 所 选 的 数据 结构 不 同 ， 所 以 实现 的 细节 也 会 有 所 差别 。 打 算 用 NoSQL 数 据 库 
来 制作 应 用 程序 的 开发 者 ， 应 该 要 明白 分 布 式 系统 的 特性 对 应 用 程序 所 造成 的 影响 ， 而 且 要 知道 如 何 根据 需求 来 选择 合适 的 
NoSQL 数 据 库 。 本 书 接 下 来 的 内 容 就 专门 讲解 这 些 话 题 。 


1. 什 么 是 分 布 式 系统 ? 
2. 描 述 两 阶段 提交 (two-phase commit) 的 过 程 。 这 种 提交 方式 是 有 助 于 确保 一 致 性 ， 还 是 有 助 于 确保 可 用 性 ? 


3.CAP 定 理 中 的 C 和 A 分 别 是 什么 意思 ? 对 于 这 两 个 方面 来 说 ， 提 升 其 中 的 某 一 个 方面 ， 可 能 会 使 男 外 一 个 方面 难以 维持 。 
请 举例 说 明 这 种 情况 。 


4.BASE 中 的 E 表 示 最 终 一 臻 性。 请 问 最 终 一 致 性 是 什么 意思 ? 

5. 请 描述 单调 写 入 的 一 致 性 ， 并 解释 这 种 一 致 性 为 什么 非常 重要 。 
6. 在 键 值 数 据 库 中 ， 一 个 键 可 以 对 应 几 个 值 ? 

7. 什 么 叫做 命名 空间 ? 它 在 键 值 数据 库 中 为 何 显得 很 重要 ? 


8. 文 档 数据 库 与 键 值 数据 库 有 什么 区 别 ? 


10. 说 出 列 族 数据 库 所 用 的 两 种 数据 结构 。 


11. 图 数据 库 的 两 种 基本 数据 结构 是 什么 ? 


12 假设 现在 要 用 数据 库 对 每 位 雇员 以 及 该 雇员 在 公司 内 的 诸位 协作 者 进行 建 模 。 数 据 库 必须 能 够 查 出 与 某 位 雇员 协同 工作 
的 其 他 员工 数量 ， 而 且 还 要 能 够 查 出 在 与 A 雇 员 相 协作 的 员工 中 ， 有 多 少 人 同时 还 与 B 雇 员 保持 协作 。 哪 一 种 NoSQI 数 据 库 最 适 
合 实现 这 种 需求 
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二 部 分 键 值 数据 库 


第 3 章 ” 键 值 数据 库 简 介 
第 4 章 ” 键 值 数据 库 的 术语 
第 5 章 ” 键 值 数据 库 的 设计 


第 3 草 ” 键 值 数据 库 简 介 


“凡事 都 要 尽量 简化 ， 但 别 简化 得 太 过 分 了 。” 


阿尔 伯 特 : 爱 因 斯 坦 (Albett Einstein) 


从 数组 到 键 值 数据 库 的 演变 
键 值 数据 库 的 重要 特性 

键 的 属性 

值 的 特征 


键 值 数 据 库 是 最 简单 的 NoSQL 数 据 库 ， 所 以 ， 可 以 用 它 为 起 点 来 深入 探索 各 种 NoSQL 数 据 库 。 从 键 值 数 据 库 这 个 名 称 可 
知 ， 此 类 数据 库 会 根据 键 来 存储 数据 ， 而 这 个 键 就 是 数据 的 标识 符 。 本 章 先 介绍 一 种 比 键 值 型 数据 结构 还 要 简单 的 结构 ， 也 就 是 
数组 (array) 。 


键 值 型 数据 结构 可 以 视 为 一 种 比较 复杂 的 数组 型 数据 结构 。 数 组 本 来 是 一 种 简单 的 数据 结构 ， 但 由 于 计算 机 科学 家 放宽 了 对 
该 结构 所 施加 的 诸多 限制 ， 并 为 其 补充 了 与 持久 化 数据 存储 有 关 的 一 些 特性 ， 因 此 ， 数 组 这 个 概念 所 覆盖 的 范围 比 原来 更 大 了 。 
它 现在 可 以 包括 其 他 很 多 有 用 的 数据 结构 ， 诸 如 关联 数组 (associative array) 、 缓 存 (cache) 以 及 持久 化 的 键 值 数据 库 等 。 


本 章 将 讲解 键 值 数据 库 的 基本 特性 ， 以 及 键 和 值 本 身 的 一 些 重 要 特征 。 此 外 ， 还 会 谈 到 键 值 数据 库 在 操作 方面 所 具备 的 关键 


Wo 


开始 谈论 具体 的 数据 库 之 前 ， 先 在 下 一 节 里 讲 一 种 更 为 基础 的 数据 结构 ， 然 后 由 该 结构 来 切入 键 值 数据 库 。 


3.1 ”从 数组 到 键 什 数 据 库 的 演变 


计算 机 刚 诞生 的 时 人 息 ， 计 算 机 科学 家 并 没有 构想 出 关系 型 数据 库 这 个 概念 。 在 第 1 章 ， 曾 经 描述 了 数据 库 的 发 展 过 程 。 由 于 
数据 管理 面临 着 越 来 越 复 杂 的 需求 ， 因 此 数据 库 的 设计 者 们 才 构 想 出 了 越 来 越 成 熟 的 数据 管理 系统 。 而 关系 型 数据 库 和 NoSQL 
数据 库 ， 正 是 数据 库 演化 过 程 中 的 两 个 里 程 碑 。 


为 了 更 好 地 研究 键 值 数据 库 ， 先 从 非常 简单 的 数据 结构 开始 ， 逐 渐 向 其 添加 各 种 功能 ， 使 之 最 终 发 展 成 一 种 简洁 而 实用 的 数 
据 库 。 


3.2” 键 值 数据 库 的 重要 特性 


开发 者 可 以 选用 各 种 各 样 的 键 值 数据 库 ， 这 些 数据 库 有 三 个 重要 的 特性 ; 
- 简洁 


速 


到 


易于 缩放 


这 三 项 特性 似乎 是 一 套 相当 理想 的 组 合 ， 每 一 种 数据 库 似 乎 都 应 该 这 样 才 对 。 不 过 ， 稍 后 大 家 就 会 看 到 ， 为 了 实现 这 三 项 非 
常 有 用 的 特性 ， 数 据 库 必须 接受 其 他 一 些 限 制 。 


3.3 键 : 不 只 是 无 意义 的 标识 符 


前 面 说 过 ， 在 使 用 键 值 数据 库 时 ， 通 过 键 来 识别 、 索 引 或 是 引用 某 个 值 。 键 所 具备 的 一 项 基本 属性 就 是 在 所 处 的 命名 空间 
内 ， 它 的 名 称 必须 独一无二 。 这 样 说 来 ， 键 似乎 是 个 相当 简单 的 概念 。 有 的 时 候 确实 是 这 样 。 


3.4 值 : 存放 任意 数据 


这 一 章 的 基调 是 简洁 。 键 值 数 据 库 是 最 为 简单 的 一 种 NoSQL 数 据 库 ， 所 以 先 从 它 开始 讲 起 。 键 值 数 据 库 之 所 以 简单 ， 一 部 
分 原因 在 于 它 使 用 关联 数组 作为 基本 的 结构 ， 而 这 种 结构 本 身 就 非常 简单 。 另 外 ，NoSQL 数 据 库 保存 值 的 方式 同样 也 很 简单 。 


3.5 小 结 


键 值 数 据 库 简单 而 灵活 。 它 们 是 一 种 基于 关联 数组 的 数据 库 ， 而 关联 数组 则 是 一 种 比 普通 数组 更 为 通用 的 数据 结构 。 天 联 数 
组 允许 用 户 采 用 更 加 丰富 的 数据 来 充当 数组 下 标 ， 这 些 下 标 就 是 键 。 键 的 类 型 可 以 是 整数 、 字 符 串 、 由 值 所 构成 的 列表 ， 也 可 以 


是 其 他 类 型 。 


对 键 值 数 据 库 的 键 来 说 ， 有 一 项 重要 的 规则 ， 那 就 是 在 同一 个 命名 空间 内 ， 各 键 的 名 字 不 能 相互 重复 。 键 是 用 来 查找 值 的 ， 
而 这 些 值 的 类 型 彼此 可 以 有 所 差别 。 在 实际 使 用 层面 ， 值 的 大 小 是 受到 一 定 限制 的 ， 具 体会 受到 何 种 限制 要 由 每 个 键 值 数据 库 的 
实现 方式 来 决定 。 有 一 些 键 值 数据 库 虽 然 不 支持 查询 语言 ， 但 是 却 提供 了 诸如 搜索 工具 等 其 他 一 些 功能 来 弥补 此 缺陷 。 


键 值 数 据 库 适合 用 来 实现 可 缩放 式 的 设计 方案 ， 可 以 采用 主 从 式 复 制 模型 或 无 主 式 复制 模型 来 配置 这 种 数据 库 。 在 主 从 式 架 
构 中 ， 通 常会 有 一 个 节点 专门 接受 写 入 请 求 ， 同 时 有 多 个 节点 都 可 以 处 理 读 取 请 求 。 在 无 主 式 架 构 中 ， 多 个 节点 都 能 够 执行 写 入 
操作 及 读 取 操 作 。 

第 4 章 会 继续 讲解 一 些 术语 及 概念 ， 以 帮助 大 家 理解 键 值 数据 库 的 设计 及 使 用 。 第 5 章 将 要 讨论 在 设计 应 用 程序 时 应 该 如 何 
利用 键 值 数据 库 ， 并 且 会 描述 很 多 有 用 的 设计 模式 ， 以 帮助 大 家 构建 出 健壮 的 键 值 数据 库 应 用 程序 。 


3， 夏 习 


阅 


1. 关 联 数组 和 普通 数组 有 什么 区 别 ? 


2. 怎 样 用 缓存 提升 关系 型 数据 库 的 性 能 ? 


4. 描 述 一 种 键 名 构造 方式 ， 这 种 方式 要 合 有 与 实体 及 属性 类 型 有 关 的 某 些 信息 。 
5. 说 出 键 值 数据 库 的 三 种 常见 特性 。 


6. 什 么 叫做 哈 希 函数 ? 请 用 哈 希 函数 的 重要 特征 来 给 出 这 个 定义 。 


7. 怎 样 通过 哈 希 函数 把 写 入 请 求 分 布 到 多 台 服 务 器 上 面 ? 
8. 在 实际 使 用 层面 ， 键 值 数据 库 中 所 能 存储 的 值 会 受到 什么 样 的 限制 ? 请 举例 说 明 。 
9. 开 发 者 在 编写 应 用 程序 时 ， 要 怎样 面 对 键 值 数 据 库 不 支持 查询 语言 这 一 问题 ? 


10. 对 于 使 用 键 值 数据 库 的 应 用 程序 来 说 ， 怎 样 通过 搜索 系统 来 改善 其 性 能 ? 


3.7 引用 资料 


Basho Technologies, Inc.Riak Documentation: http://docs.basho.com/riak/latest/ 
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Meyer, Mathias.Riak Handbook.Seattle, WA: Amazon Digital Services, Inc., 2013. 


FoundationDB, FoundationDB Documentation: https://foundationdb.com/key-value- 


store/documentation/index.html 
Macedo, Tiago, and Fred Oliveira.Redis Cookbook.Sebastopol, CA: O’ Reilly Media, Inc., 2011. 


Oracle Corporation.Oracle NoSQL Documentation: http://www.oracle.com/technetwork/database/database- 
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第 4 章 ” 键 值 数据 库 的 术语 


“我 总 想 用 各 种 恰当 的 演奏 方式 [来 应 对 不 同 的 情境 。” 


Roscoe Mitchell ( 茵 士 乐 作曲 家 及 萨克斯 风 吹 奏 者 ) 


与 键 值 数 据 库 的 数据 建 模 有 关 的 术语 
与 键 值 数 据 库 的 架构 有 关 的 术语 
与 键 值 数据 库 的 实现 有 关 的 术语 


本 章 与 前 三 章 不 同 ， 这 一 章 是 要 解释 键 值 数据 库 所 使 用 的 一 些 重要 词汇 。 在 介绍 NoSQL 数 据 库 这 种 新 兴 领 域 所 使 用 的 术语 
时 ， 会 在 介绍 方式 上 面 陷入 两 难 。 


按 什 么 顺序 来 讲解 比较 好 呢 ? 是 应 该 先 了 解 键 值 数据 库 的 基本 原理 ， 然 后 再 深入 解释 键 值 数据 库 背 后 的 术语 和 概念 ， 还 是 应 
该 先 抛 开 键 值 数据 库 的 宏观 图 景 ， 直 接 去 介绍 各 术语 的 定义 ? 其 实 这 两 种 办 法 都 各 有 利 浆 。 


本 书 试 着 采用 一 种 能 够 兼 具 两 者 优势 的 办 法 来 编写 ， 也 就 是 先 介 绍 基本 概念 ， 然 后 详细 描述 其 中 的 关键 术语 ， 最 后 再 用 另外 
一 章 来 讨论 高 级 话题 。 那 些 高 级 话题 包括 常用 的 设计 模式 、 开 发 过 程 中 可 能 碰 到 的 缺陷 与 陷阱 ， 以 及 一 项 能 够 描述 键 值 数据 库 常 
见 用 法 的 案例 研究 。 


本 章 分 为 建 模 术 语 、 架 构 术 语 和 实现 术语 三 个 话题 ， 但 是 这 三 部 分 之 间 在 某 种 程度 上 是 有 所 重 芭 的 。 这 种 安排 方式 可 能 显得 
有 些 随意 ， 读 者 也 许 会 觉得 架构 方面 的 某 些 术 语 其 实 应 该 属于 实现 层面 ， 反 过 来 说 也 一 样 。 就 本 章 而 言 ， 重 要 的 应 该 是 这 些 术 语 
本 身 ， 而 不 是 它们 位 于 哪个 小 节 里 面 。 


NoSQL 数 据 库 的 标准 化 程度 没有 关系 型 数据 库 那 么 高 。 比 方 说 ， 关 系 型 数据 库 有 SQL 语 言 ， 但 NoSQL 数 据 库 就 没有 这 种 标 
准 的 查询 语言 。 不 同 的 开发 商 及 开源 项 目 可 能 会 在 各 自 的 NoSQL 数 据 库 中 使 用 一 些 特 有 的 专门 词汇 或 数据 结构 。 


本 书 针对 四 种 主要 的 NoSQL 数 据 库 ， 都 分 别 会 用 一 章 的 篇 幅 来 介绍 与 那 种 数据 库 的 开发 商 或 开源 项 目 有 关 的 术语 。 虽 说 
《For Mere Mortals》 系 列 的 书籍 不 应 该 专注 于 某 款 具 体 的 软件 ， 但 是 大 家 在 熟悉 了 开发 商 或 开源 项 目 所 使 用 的 这 些 术语 之 
后 ,可 以 更 加 轻松 地 实现 自己 的 NoSQL 数 据 库 应 用 程序 。 


[1 原文 为 vocabulary， 该 词 既 可 以 指 词汇 表 ， 也 可 以 指 艺 术 或 风格 方面 的 形式 或 技巧 。 译 者 注 


4.1 与 键 值 数 据 库 的 数据 建 模 有 关 的 术语 


数据 库 中 的 数据 能 够 传达 信息 ， 而 数据 模型 就 是 用 来 排列 这 些 信 息 的 一 种 抽象 方式 。 它 们 与 数据 结构 有 所 区 别 。 


数据 结构 是 一 种 有 了 明确 定义 的 数据 存储 结构 ， 它 一 般 要 通过 底层 硬件 中 的 某 些 元 件 来 实现 ， 这 些 元 件 通 常 是 指 随机 存 取 存 储 
器 (Random Access Memory，RAM ， 也 就 是 内 存 ) 或 硬盘 及 闪存 盘 等 持久 化 数据 存储 介质 。 例 如 ， 编 程 语 言 中 的 整数 型 变 
量 可 能 会 用 4 个 连续 的 字 节 ， 也 就 是 32 个 二 进 制 位 来 实现 。 


含有 100 个 整数 的 数组 可 以 连续 地 存放 在 内 存 之 中 ， 数 组 里 的 每 个 元 素 都 用 4 个 字 节 来 表示 。 数 据 结构 还 都 拥有 一 套 处 理 本 
结构 所 用 的 操作 。 整 数 这 种 数据 结构 定义 了 加 、 减 、 乘 、 除 等 操作 ， 而 数组 则 提供 了 以 下 标 为 依据 的 读 取 操 作 和 写 入 操作 。 


数据 结构 提供 了 一 种 宏观 的 排列 方式 ， 使 得 开发 者 既 不 用 去 关注 底层 的 内 人 存 地 址 ， 又 无 需 通过 这 些 地 址 在 硬件 层面 上 进行 操 
作 (参见 图 4.1) 。 数 据 模 型 也 是 用 类 似 的 方法 进行 抽象 的 ， 它 是 搭建 在 数据 结构 之 上 的 一 种 排列 和 抽象 方式 。 


数据 结构 “下 标 
层面 的 抽象 


| 


值 内 存 ep (其 中 的 指针 ， 
地 址 指 问 某 个 内 


存 地 址 ) 


硬件 层面 内 存 
的 实现 “地址 


图 4.1 数据 结构 位 于 硬件 层 之 上 ， 它 是 一 种 宏观 的 数据 排列 方式 


数据 模型 一 般 用 来 安排 多 种 相关 的 信息 。 对 于 管理 客户 信息 所 用 的 数据 模型 来 说 ， 它 可 能 会 针对 客户 的 姓名 、 住 址 、 订 单 及 
支付 记录 进行 建 模 。 而 对 于 | 临床 数据 库 来 说 ， 则 可 能 包含 病人 姓名 、 年 龄 、 性 别 、 当 前 的 处 方 、 过 去 做 过 的 手术 、 过 敏 情况 以 及 
其 他 一 些 与 医疗 有 关 的 细节 。 


理论 上 可 以 用 数组 及 链表 等 基本 的 数据 结构 来 编写 软件 ， 以 记录 上 面 提 到 的 那些 数据 。 但 实际 上 ， 那 样 做 会 浪费 时 间 。 更 有 
效 、 更 迅速 的 办 法 应 该 是 用 数据 模型 与 数据 库 来 做 (参见 图 4.2) 。 


数据 模型 中 的 元 件 会 随 着 数据 库 的 类 型 不 同 而 有 所 不 同 。 关 系 型 数据 库 是 围绕 着 表格 来 构建 的 。 表 格 用 来 存储 与 实体 有 关 的 
言 息 ， 实 体 可 以 代表 顾客 、 病 人 、 订 单 或 手术 等 事物 。 实 体 的 属性 用 来 记录 特定 实体 的 具体 信息 。 属 性 可 以 是 名 称 、 年 龄 、 配 送 
地 址 等 。 


在 关系 型 数据 库 中 ， 表 格 是 由 很 多 列 构成 的 ， 每 一 列 都 对 应 于 一 项 属性 。 表 格 内 的 每 行 则 对 应 于 实体 的 每 个 实例 ， 如 某 位 具 
体 的 顾客 或 病人 。 


软件 工程 师 在 设计 数据 库 的 时 候 ， 会 选择 一 些 数据 结构 来 实现 数据 模型 中 的 表格 及 其 他 元 件 。 这 就 减轻 了 应 用 程序 开发 者 的 


工作 量 ， 使 得 他 们 不 用 再 处 理 那 些 细节 问题 。 这 样 做 的 代价 是 ， 应 用 程序 开发 者 必须 学 着 使 用 与 数据 库 中 的 数据 模型 有 关 的 一 些 
术语 和 设计 模式 。 


过 敏 愧 
药品 名 称 
严重 程度 


图 4.2 ”数据 模型 是 搭建 在 数据 结构 上 方 的 一 种 抽象 层 ， 它 使 得 数据 库 应 用 程序 的 开发 者 可 以 更 加 关注 所 要 管理 的 信息 ， 而 不 用 


过 多 地 担心 实现 方面 的 问题 


注解 ”在 关系 型 数据 模型 的 设计 中 ， 带 辑 数据 模型 与 物理 数据 模型 是 有 区 别 的 。 实 体 和 属性 是 逻辑 数据 模型 所 使 用 的 术语 ， 
二 者 分 别 对 应 于 物理 数据 模型 中 的 表格 和 列 这 两 个 元 件 。 本 书 会 同时 使 用 实体 及 表格 这 两 种 称呼 方式 来 描述 此 概念 。 由 于 这 并 不 
是 一 本 讲解 关系 型 数据 库 设计 方式 的 书 ， 所 以 不 会 详细 解释 逻辑 数据 模型 与 物理 数据 模型 之 间 的 区 别 ， 也 不 会 去 分 析 每 种 模型 中 
的 术语 应 该 在 什么 样 的 场合 下 使 用 。 与 关系 型 数据 库 的 建 模 有 关 的 详细 信息 ， 请 参阅 Michacl ].Hernandez 所 著 的 《Database Design 


for Mere Mortals》 (Second Edition, Addison-Wesley, 2003) 。 


下 面 几 个 小 节 将 会 讨论 与 键 值 数 据 库 的 建 模 有 关 的 重要 概念 ， 包 括 键 、 值 、 命 名 空间 、 分 区 、 分 区 键 以 及 无 纲要 的 模型 。 


4.2 “与 键 值 数据 库 的 架构 有 关 的 术语 


键 值 数据 库 的 架构 是 指 与 服务 器 、 网 络 组 件 及 相关 软件 有 关 的 一 系列 特征 ， 这 里 所 说 的 软件 是 用 来 协调 多 台 服 务 器 之 间 的 工 
作 的 。 讨 论 键 值 数 据 库 的 架构 时 ， 经 常会 提 到 以 下 三 个 词 : 


4.3 ”与 键 值 数据 库 的 实现 有 关 的 术语 


本 章 最 后 要 讲解 的 这 一 组 词汇 涉及 数据 库 用 户 通常 无 需 直 接 面 对 的 一 些 话题 。 与 这 些 概 念 有 关 的 操作 会 由 应 用 程序 在 幕后 来 
完成 ， 尽 管 如 此 ， 但 它们 对 键 值 数据 库 的 运作 来 说 却 是 相当 重要 的 。 


4.4 小 结 

键 值 数据 库 用 自己 的 一 套 术 语 来 描述 数据 模型 、 架 构 以 及 实现 层面 的 组 件 。 键 、 值 、 分 区 及 分 区 键 都 是 与 数据 模型 有 关 的 重 
要 概念 。 在 学 习 其 他 种 类 的 NoSQL 数 据 库 时 ， 还 会 磁 到 这 些 词 。 

还 有 一 些 重要 的 概念 与 键 值 数据 库 的 架构 有 关 ， 也 要 加 以 理解 。 集 群 、 环 以 及 复制 都 是 涉及 架构 的 重要 话题 。 


数据 库 应 用 程序 的 开发 者 虽然 不 需要 经 常 处 理 实现 层面 的 问题 ， 但 是 应 该 理解 这 些 概念 ， 因 为 这 对 于 性 能 调 优 来 说 是 非常 有 
帮助 的 。 与 实现 有 天 的 重要 概念 包括 哈 希 函 数 、 碰 撞 以 及 压缩 。 


在 第 3 章 中 简介 了 键 值 数据 库 ， 然 后 又 在 本 章 里 面 讲解 了 键 值 数据 库 的 一 些 专用 词汇 ， 接 下 来 应 该 看 看 键 值 数据 库 的 一 些 高 
级 用 法 和 相关 的 设计 模式 了 。 这 些 已 经 固定 下 来 的 设计 模式 可 以 帮助 我 们 开发 出 更 加 健壮 、 更 易 扩 展 的 键 值 数据 库 应 用 程序 。 


4.5 复习 题 


1. 什 么 是 数据 模型 ”它们 与 数据 结构 的 区 别 是 什么 ? 
2. 什 么 是 分 区 ? 


3. 请 描述 两 种 不 同 的 集群 ， 并 说 出 键 值 数 据 库 经 常 使 用 的 是 哪 一 种 集群 。 


5. 从 键 值 数据 库 中 读 取 数据 的 时 候 ， 为 什么 想 要 取得 多 个 副本 所 给 出 的 响应 ? 
6. 在 什么 情况 下 需要 维护 大 量 的 副本 ? 
7. 键 值 数 据 库 为 什么 要 使 用 哈 希 冰 数 ? 


8. 什 么 是 碰撞 ? 


9. 描 述 一 种 不 会 丢失 数据 的 碰撞 处 理 方式 。 


10. 讲 述 压缩 速度 与 压缩 率 之 间 的 关系 。 
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第 5 草 ” 键 值 数据 库 的 设计 


“设计 不 仅 是 指 外 观 和 感觉 ， 它 还 包括 运作 方式 。” 
一 一 史 蒂 夫 .乔布斯 (Steve Jobs) 


Apple 公 司 前 CEO 


键 的 设计 与 分 区 

设计 结构 化 的 值 

键 值 数 据 库 的 局 限 

适用 于 键 值 数据 库 的 设计 模式 

案例 研究 

用 键 值 数 据 库 管理 移动 应 用 程序 的 配置 


在 本 书 前 四 章 中 ， 学 习 了 NoSQL 数 据 库 的 基础 知识 ， 并 详细 讲解 了 其 中 的 一 种 数据 库 ， 也 就 是 键 值 数据 库 ， 现 在 来 深入 研 
究 键 值 数据 库 的 运作 方式 。 在 设计 一 款 使 用 键 值 数 据 库 的 应 用 程序 时 ， 要 考虑 很 多 因素 ， 其 中 包括 : 


“ 如 何 安排 键 的 结构 。 

. 应 该 用 值 来 存放 哪些 信息 。 

* 怎样 应 对 键 值 数据 库 的 局 限 。 

. 如 何 通过 引入 抽象 层 来 创建 比 键 值 对 更 为 高 级 的 组 织 结构 。 


键 名 如 果 设 计 得 比较 好 ， 就 可 以 使 应 用 程序 的 代码 更 加 容易 阅读 ， 而 且 也 能 使 程序 和 键 值 数 据 库 更 容易 维护 。 在 键 值 对 中 存 
放 合 适 的 数据 ， 既 可 以 满足 功能 需求 ， 又 可 以 保证 程序 高 效 运作 。 键 值 数 据 库 是 一 种 有 效 的 数据 库 ， 但 也 有 着 明显 的 限制 ， 如 无 
法 方便 地 获取 时 个 范围 内 的 数值 。 本 章 会 描述 一 些 应 对 此 类 限制 的 办 法 ， 同 时 还 会 讲解 在 设计 应 用 程序 和 键 值 数 据 库 时 可 能 用 到 
的 设计 模式 。 

设计 模式 的 定义 

维基 百科 给 设计 模式 所 下 的 定义 [是 ， 对 菜 种 软件 设计 情境 中 反复 出 现 的 问题 所 给 出 的 通用 且 可 复 用 的 解决 方案 。 设 计 模式 
并 不 是 一 套 可 以 直接 变 为 源 代 码 或 机 器 码 的 完备 设计 ， 而 是 一 段 描述 或 一 个 模板 ， 用 以 指出 如 何在 不 同情 况 下 解决 某 个 问 
题 中 (A general reusable solution to a commonly occutting problem within a given context in software design.A design pattern is not a 


finished design that can be transformed directly into source or machine code.It is a description or template for how to solve a problem that can 


be used in many different situations.) 。 


[1] http://en.wikipedia.org/wiki/Software_design_pattern 
中文 维基 百科 所 给 出 的 定义 : 设计 模式 是 对 软件 设计 中 普遍 存在 (反复 出 现 ) 的 各 种 问题 所 提出 的 解决 方案 。 


译 者 注 


25.1 键 的 设计 与 分 区 


键 的 设计 方式 会 影响 键 值 数据 库 的 易 用 程度 。 一 种 极端 的 办 法 是 采用 完全 随机 的 键 来 存放 每 一 个 值 。 除 非 有 惊人 的 记忆 力 ， 
或 是 有 某 种 数据 结构 能 把 无 意义 的 键 名 转换 成 有 意义 的 信息 ， 否 则 使 用 laklsjfdjjd 这 样 的 字符 串 做 键 是 没有 多 少 意义 的 。 键 名 应 
该 体现 出 某 种 逻辑 结构 ， 以 提升 代码 的 可 读 性 及 可 扩展 性 ， 同 时 ， 在 设计 键 名 的 时 候 还 要 适当 地 节省 人 存储 空间 。 


5.2 ”设计 结构 化 的 值 


值 (value) 这 个 词 可 以 涵盖 很 大 一 批 数据 对 象 ， 简 单 的 计数 器 是 一 种 值 ， 坐 套 有 复杂 结构 的 分 层 数 据 结构 也 是 一 种 值 ， 这 
些 值 都 可 以 放 在 键 值 数据 库 中 。 不 过 ， 我 们 要 想 一 想 ， 自 己 真 的 需要 在 数据 库 中 使 用 结构 化 的 数据 类 型 吗 ” 这 个 问题 与 设计 数据 
库 时 需要 考虑 的 其 他 问题 一 样 ， 通 常 要 依照 具体 的 情况 来 判断 。 


现在 来 考虑 两 种 使 用 情境 。 在 第 一 种 情境 下 ， 有 两 个 属性 ， 而 这 两 个 属性 经 常 需要 一 起 使 用 ;在 第 二 种 情境 下 ， 有 一 组 逻辑 
上 相互 关联 的 属性 ， 其 中 某 些 属性 经 常 需要 一 起 使 用 ， 但 未 必 总 是 要 用 到 全 部 的 属性 。 通 过 下 面 两 个 小 节 就 可 以 看 到 ， 这 两 种 情 
况 最 好 采用 不 同 的 方式 来 进行 处 理 。 


5.3 ” 键 值 数据 库 的 局 限 


键 值 数据 库 是 最 简单 的 NoSQL 数 据 库 ， 这 意味 着 它们 是 易学 易 用 的 ， 但 同时 也 意味 着 这 些 数据 库 会 受到 一 些 重要 的 限制 。 
刚才 看 到 了 采用 大 型 数据 值 所 带 来 的 缺点 。 此 外 ， 还 应 该 注意 其 他 一 些 缺 点 ， 尤 其 是 下 面 列 出 来 的 几 项 : 


* 某 些 键 值 数 据 库 不 支持 查询 位 于 某 个 范围 内 的 值 
* 不 支持 像 关 系 型 数据 库 所 使 用 的 那 种 SQL 式 标准 查询 语言 


键 值 数 据 库 通常 会 有 这 些 局 限 ， 但 在 使 用 不 同 的 键 值 数 据 库 时 也 会 发 现 ， 软 件 厂 商 与 开源 项 目的 开发 者 其 实 都 在 想 办 法 弥补 


这 些 缺 点 。 


5.4 ”适用 于 键 值 数据 库 的 设计 模式 


设计 模式 ,或 者 说 通用 的 软件 解决 方案 ， 是 随 着 Erich Gamma、Richard Helm、Ralph Jackson 及 John Vlissides 所 写 的 
《Design Patterns: Elements of Reusable Object-Oriented Software》 (《 设 计 模式 : 可 复 用 面向 对 象 软件 的 基础 》) 一 


书 而 流行 起 来 的 。 这 本 书 也 称 为 Gang of Four 之 书 (四 人 组 之 书 , 或 GoF 书 ) 。 


除了 刚刚 入 门 的 程序 员 之 外 ， 大 家 可 能 都 非常 清楚 ， 有 一 些 解决 方案 是 可 以 在 不 同 的 应 用 程序 中 反复 使 用 的 。 而 《设计 模 
式 》 一 书 的 价值 就 在 于 ， 它 对 这 些 解决 方案 进行 了 分 类 ， 并 且 描 述 了 一 些 可 通过 软件 方式 来 实现 的 模式 ， 使 得 开发 者 能 够 在 多 种 
编程 语言 中 运用 这 些 模 式 。 在 开发 数据 库 应 用 程序 时 ， 也 可 以 使 用 设计 模式 。 


现在 来 讲解 采用 键 值 数据 库 开 发 应 用 程序 时 比较 有 用 的 设计 模式 。 它 们 包括 : 
. TTI 键 (Time to Live key) 
* 模拟 关系 型 数据 库 的 表格 
. 聚合 
-原子 聚合 
. 可 枚 举 的 键 
“索引 


有 些 设计 模式 可 以 按照 其 描述 直接 付 诸 应 用 ， 而 另外 一 些 则 需要 根据 自己 的 需求 做 出 修改 。 应 该 把 设计 模式 当成 解决 常见 问 
题 的 一 些 建议 ， 而 不 能 把 它们 看 作 由 设计 模式 界 的 元 老 所 颁 行 的 严格 教条 。 


也 要 注意 自己 在 开发 应 用 程序 时 反复 用 到 的 那些 解决 方案 ， 因 为 有 的 时 候 或 许可 以 在 其 中 发 现 一 些 由 自己 原创 的 设计 模式 。 


5.5 小 结 


键 值 数据 库 是 最 为 简单 的 NoSQL 数 据 库 ， 但 它们 可 以 满足 应 用 程序 开发 者 对 存储 和 获取 服务 的 基本 需求 。 为 键 值 数据 库 做 
设计 时 ， 需 要 分 几 个 步骤 。 要 制定 一 套 针对 键 的 命名 规范 ， 使 得 开发 者 可 以 方便 地 构造 键 名 ， 并 把 与 键 相 关 的 值 所 具备 的 类 型 也 
表达 出 来 。 值 可 以 是 基本 的 数据 类 型 ， 也 可 以 是 较为 复杂 的 数据 结构 。 复 杂 的 数据 结构 能 够 同时 保存 多 个 属性 ， 但 值 的 尺寸 若是 
过 大 则 会 影响 性 能 。 本 章 描 述 的 设计 模式 为 某 些 常见 的 问题 提供 了 原始 的 解决 方案 ， 同 时 也 有 助 于 通过 引入 抽象 层 来 更 好 地 划分 
应 用 程序 的 结构 。 某 些 键 值 数据 库 的 实现 产品 提供 了 搜索 及 辅助 索引 等 附加 功能 ， 应 该 尽 可 能 利用 这 些 功 能 ， 因 为 与 自己 手工 实 
现 出 来 的 功能 相 比 ， 它 们 的 效率 会 高 一 些 ， 而 且 所 需 的 代码 也 会 更 少 一些 。 


5.6 “案例 研究 : 用 键 值 数据 库 管 理 移动 应 用 程序 的 配置 


TransGlobal Transport and Shipping (TGTS) 公司 的 业务 是 在 全 球 运输 各 种 规模 的 货品 。TGTS 的 顾客 会 与 公司 联系 ， 并 
告知 包 诸 和 货物 的 详细 信息 。 一 份 简单 的 订单 可 能 只 有 一 件 国内 包 诸 ， 而 一 份 复杂 的 订单 则 可 能 包含 上 百 件 需 要 跨国 运输 的 大 宗 
货物 或 集装箱 货品 。 为 了 使 顾客 能 够 追踪 物流 信息 ，TGTS 决 定 研发 一 款 名 叫 TGTS Tracker 的 移动 应 用 程序 。 


TGTS Tracker 能 够 在 主流 的 移动 设备 上 面 运行 。 应 用 程序 的 设计 者 决定 把 每 位 顾客 的 配置 信息 都 集中 存放 在 一 个 数据 库 
中 ， 以 便 使 顾客 可 以 在 自己 的 任何 一 台 移 动 设备 上 面 查询 货品 的 运输 状况 。 所 要 保存 的 配置 信息 包括 : 


. 顾客 姓名 及 账户 号 码 
显示 价格 信息 所 用 的 默认 货币 
. 出 现在 信息 总 览 面板 里 的 运单 属性 
. 与 警示 信息 和 通知 信息 有 关 的 首选 项 
. 首选 的 配色 方案 及 字体 等 用 户 界面 选项 


除了 要 管理 配置 信息 ， 程 序 的 设计 者 还 需要 能 够 把 汇总 信息 迅速 显示 在 某 个 界面 之 中 。 如 果 顾 客 还 要 查询 更 为 详细 的 货运 信 
息 ， 那 么 显示 详细 信息 所 用 的 时 间 可 以 稍微 长 一 些 。TGTS Tracker 所 用 的 数据 库 要 能 够 支持 10000 名 用 户 同时 在 线 访 问 ， 其 中 
90% 的 MO 操作 都 是 读 取 操 作 。 


设计 团队 评估 了 关系 型 数据 库 和 键 值 数据 库 。 关 系 型 数据 库 确 实 适合 管理 多 张 表格 之 间 的 复杂 关系 ,但 这 个 Tracker 程 序 却 
更 加 注重 可 缩放 性 以 及 快速 响应 读 取 操 作 的 能 力 ， 因 此 ， 他 们 认为 用 键 值 数 据 库 来 实现 TGTS Tracker 会 更 好 一 些 。 


这 款 移动 应 用 程序 所 用 的 数据 ， 其 范围 不 是 很 广 ， 因 此 ， 设 计 者 认为 采用 一 个 命名 空间 来 存放 就 已 经 足够 用 了 。 于 是 ， 他 们 
就 把 TrackerNS 当 作 该 程序 的 命名 空间 。 


因为 每 位 顾客 都 有 账户 号 码 ， 所 以 设计 者 把 该 号 码 视 为 顾客 的 独特 标识 符 。 


接 下 来 ,设计 者 要 决定 值 的 数据 结构 。 在 审视 了 用 户 界 面 的 初步 设计 方案 之 后 ， 他 们 发 现 顾 客 的 姓名 与 账户 号 码 经 常 需要 同 
时 使 用 ， 因 此 ， 这 两 个 值 可 以 放 在 同一 份 列 表 里 面 。 而 程序 同时 还 经 常会 用 到 默认 的 货币 ， 所 以 这 个 值 也 可 以 和 顾客 姓名 及 账户 
号 码 放 在 一 起 。Tracker 程 序 是 用 来 查看 物流 状态 的 ， 不 太 需要 诸如 账单 地 址 等 管理 方面 的 信息 ， 因 此 ， 程 序 设计 者 决定 不 把 那 
部 分 信息 纳入 键 值 数据 库 。 


程序 设计 者 决定 按照 “实体 名 称 : 账户 号 码 ” 的 命名 规则 来 构造 键 名 。 根 据 Tracker 程 序 所 要 管理 的 数据 类 型 ， 他 们 打算 在 
数据 库 中 存放 4 种 实体 : 


: 顾客 信息 (customer information) ， 简 称 cust; 


: 与 管理 面板 有 关 的 配置 选项 (dashboard configuration options) ， 简 称 dshb; 


哈 


' 与 警示 和 通知 信息 有 关 的 参数 (aletts and notification specifications) ， 简 称 alrt; 
与 用 户 界面 有 关 的 配置 信息 (user intetface configurations) ， 简 称 ui。 


然后 ， 需 要 决定 每 种 实体 所 具备 的 属性 。 顾 客 实体 应 该 具备 顾客 的 姓名 及 首选 的 货币 。 由 于 账户 号 码 已 经 成 为 键 名 的 一 部 
分 ， 因 此 没有 必要 再 将 其 保存 到 值 的 列表 里 。 可 以 用 下 面 这 样 的 键 值 对 来 保存 某 位 顾客 的 信息 : 


TrackerNS['cust:4719364'] = {'name':'Prime Machine, Inc.', 
'currency':'USD'} 


Tracker 程 序 的 用 户 可 以 对 面板 进行 配置 ， 以 选择 需要 显示 在 汇总 画面 中 的 属性 。 用 户 最 多 可 以 选择 6 种 与 运单 相关 的 详细 
信息 。 可 供 选 择 的 选项 (括号 内 是 其 缩写 ) 如 下 : 
“ 收 货 的 公司 (shpComp) 
: 收 货 方 所 在 的 城市 (shpCity) 


“ 收 货 方 所 在 的 州 (shpState) 


. 收 货 方 所 在 的 国家 (shpCountry) 
. 发 货 日 期 (shpDate) 
. 预计 的 收 货 日 期 (shpDelivDate) 
* 运输 的 包 衰 /集装箱 数量 (shpCnt) 
` 运输 的 包 误 /集装箱 种 类 (shpType) 
. 货品 总 重量 (shpWeht) 
. 货品 备注 (shpNotes) 
比方 说 ， 某 位 用 户 的 面板 配置 参数 可 能 会 是 : 


TrackerNS['dash:4719364'] = 
{'shpComp','shpState','shpDate','shpDelivDate'} 


警示 与 通知 参数 用 来 表示 程序 应 该 在 何 种 情况 下 向 用 户 发 送 消息 。 比 方 说 ， 当 包 庄 得 到 收 揽 的 时 候 、 已 经 送 达 的 时 候 或 者 发 
生 延 迟 的 时 候 ， 程 序 可 以 向 用 户 发 送 警 示 或 通知 。 这 些 消息 可 以 用 电子 邮件 的 形式 发 送 到 邮箱 ， 也 可 以 用 文字 信息 的 形式 发 送 到 
手机 。 许 多 用 户 都 可 以 接收 由 系统 发 来 的 通知 ， 然 而 每 位 用 户 获得 通知 的 时 机 是 各 有 不 同 的 。 


这 些 参数 可 以 表示 为 由 小 列表 所 构成 的 一 份 大 列表 。 比 方 说 ， 假 设 当 TGTS 公 司 收 揽 包 事 的 时 候 ， 程 序 应 该 向 
jane.washingon@primemachineinc.com 邮 箱 发 送 电子 邮件 ， 并 且 当 包 训 出 现 延 迟 的 时 候 ， 程 序 应 该 给 (202) 555-9812 这 
个 手机 号 发 送 文字 短信 ， 那 么 就 可 以 把 这 些 参 数 表示 成 下 面 这 个 键 值 对 : 


TrackerNS [alrt:4719364] = 
{ altList 
{'jane.washingon@primemachineinc.com','pickup'}, 
{' (202)555-9812','delay')} 


最 后 ， 把 与 用 户 界面 有 天 的 配置 选项 表示 成 一 份 由 属性 名 和 属性 值 所 构成 的 列表 ， 该 列表 可 以 包含 字体 名 称 、 字 体 大 小 及 配 
色 方案 等 信息 。 例 如 ， 某 位 用 户 的 用 户 界面 参数 可 以 表示 成 下 面 这 样 的 键 值 对 : 


TrackerNSsS [alrt:4719364] = { 'fontName': 'Cambria', 
!'fontSize': 9, 
ICOLorScheme' : 'default' 
} 


设计 者 把 实体 类 型 、 键 名 规范 及 数值 结构 都 定义 好 之 后 ， 开 发 者 就 可 以 编写 设置 并 获取 相关 数值 所 需 的 代码 了 。 


5.7 复习 


阅 


1. 一 套 良 好 的 键 名 规范 应 该 具备 哪 四 项 特征 ? 

2. 键 值 数 据 库 的 键 会 受到 哪 两 种 限制 ? 

3. 描 述 范 围 分 区 与 哈 希 分 区 的 区 别 。 

4 .结构 化 的 数据 类 型 为 何 能 减少 读 取 时 的 延迟 (也 就 是 减少 从 磁盘 中 获取 数据 块 时 所 需 的 时 间 ) ? 
5. 描 述 TTL 键 (Time to Live key) 模式 。 

6. 哪 一 种 设计 模式 能 够 提供 关系 型 表格 所 具备 的 某 些 特征 ? 

7. 什 么 情况 下 应 该 使 用 聚合 (aggregate) 模式 ? 

8. 什 么 叫做 可 枚 举 的 键 ? 

9. 可 枚 举 的 键 为 什么 有 助 于 实现 范围 式 的 查询 ? 


10. 如 果 配 置信 息 中 还 要 包含 用 户 的 首选 语言 ， 那 么 应 该 如 何 调整 TGTS Tracker 程 序 的 设计 ? 


5.8 引用 资料 
Basho Technologies, Inc., Riak Documentation: http://docs.basho.com/riak/latest/. 


FoundationDB.Key-Value Store 2.0 Documentation: https://foundationdb.com/key-value- 


store/documentation/index.html. 


Katsov, llya. “NoSQL Data Modeling Techniques.” Highly Scal-able 
Blog: http://highlyscalable.wordpress.com/2012/03/01/nosql-data-modeling-techniques/. 


Oracle Corporation. “Oracle NoSQL Database, 12c Release 


1”: http://docs.oracle.com/cd/NOSQL/html/index.html. 
Redis Documentation: http://redis.io/documentation. 


Wikipedia. “Software Design Patterns” : http://en.wikipedia.org/wiki/Software design pattern. 


三 部 分 文档 数据 库 


第 6 章 文档 数据 库 简介 
第 7 章 ”文档 数据 库 的 术语 
第 8 章 ”文档 数据 库 的 设计 


第 6 草 ”文档 数据 库 简 介 


“我 是 个 坚守 原则 的 人 ， 我 的 第 一 原则 是 随机 应 变 。” 


Everett Dirksen 
美国 前 参议 员 

本 章 内 容 

何谓 文档 

文档 数据 库 无 需 定义 显 式 纲要 

文档 数据 库 的 基本 操作 

如 果 开 发 者 既 需 要 利用 NoSQL 数 据 库 的 灵活 性 ， 又 需要 管理 那 种 键 值 数 据 库 没有 提供 直接 支持 的 复杂 数据 结构 ， 那 么 通常 
会 考虑 采用 文档 数据 库 。 与 键 值 数据 库 类 似 ， 文 档 数 据 库 也 不 要 求 开发 者 必须 为 数据 库 中 的 所 有 记录 都 定义 一 套 固定 的 结构 ， 从 
这 一 方面 来 说 ， 它 与 关系 型 数据 库 有 所 区 别 。 然 而 ， 它 同时 还 具备 某 些 与 关系 型 数据 库 相 似 的 特性 。 例 如 ， 可 以 对 一 批文 档 进行 


查询 和 筛选 ， 这 正如 可 以 针对 关系 型 数据 库 里 的 数据 行 做 查询 和 筛选 一 样 。 虽 说 SQL 数 据 库 和 NoSQL 数 据 库 所 使 用 的 语法 、 结 
构 和 查询 方式 各 有 不 同 ， 但 其 功能 是 可 以 相互 对 照 的 。 


本 书 的 第 三 部 分 专门 用 来 讨论 第 二 种 NoSQL 数 据 库 ， 也 就 是 文档 数据 库 。 本 章 作为 第 三 部 分 的 头 一 章 ， 首 先 要 讨论 文档 数 
据 库 中 的 文档 ， 然 后 讲解 文档 的 结构 以 及 同一 个 集合 内 的 文档 在 结构 上 的 变化 能 力 ， 最 后 讲解 文档 数据 库 的 基本 操作 ， 如 排列 数 
据 、 编 订 索 引 以 及 获取 文档 等 。 


6.1 何谓 文档 


看 到 document (文档 ) 这 个 词 的 时 候 ， 可 能 会 想到 文字 处 理 软件 中 的 文档 或 是 电子 表格 ， 甚 至 还 会 想到 纸 质 文档 。 这 些 事 
物 都 是 document 一 词 带 给 大 家 的 印象 ， 可 是 ， 它 们 却 和 文档 数据 库 里 的 文档 没有 关系 ， 至 少 作为 一 种 NoSQL 数 据 库 的 类 型 来 
说 ,文档 数据 库 中 的 文档 和 传统 的 文档 是 不 一 样 的 。 


注解 ”有 一 些 应 用 程序 确实 可 以 维护 一 份 数据 库 ， 用 来 保存 由 文字 处 理 软件 产生 的 文件 、 电 子 表格 、 电 子 邮件 以 及 其 他 可 以 
描述 成 文档 的 电子 对 象 。 例 如 ， 律 师 可 能 就 会 用 关系 型 数据 库 来 保存 与 其 所 代理 的 案件 相关 的 文档 。 把 那 种 数据 库 称 为 文档 数据 
库 也 有 道理 ， 但 那个 文档 和 我 们 要 讨论 的 NoSQL 数 据 库 领域 中 的 文档 是 不 同 的 。 本 书 所 说 的 文档 数据 库 指 的 都 是 NoSQL 数 据 库 
领域 中 的 文档 数据 库 ， 与 保存 电子 文档 所 用 的 数据 库 不 是 一 个 概念 。 


6.2 ”文档 数据 库 无 需 定义 显 式 纲要 


如 果 用 过 关系 型 数据 库 的 话 ， 可 能 已 经 对 纲要 的 定义 非常 熟悉 了。 纲要 (schema,， 模式 ) 是 一 份 规格 书 
(specification) ， 用 来 描述 表格 等 对 象 的 结构 。 前 文 提 到 的 那 种 顾客 记录 ， 其 纲要 可 以 用 下 面 的 伪 代 码 来 表示 : 


CREATE TABLE customer ( 
customer ID integer, 
name varchar(100), 
street varchar(100), 
city varchar (100) ， 
state varchar (2),, 
zip varchar (5) ， 
first purchase date date, 
last purchase date date 


上 面 这 份 纲 要 定义 了 一 张 存 放 顾 客 及 其 地 址 信息 的 表格 。 每 一 条 顾客 记录 都 有 相同 的 8 个 列 : customer id、name、 
street、city、state、zip、first_purchase_date 及 last_purchase_date。 每 一 列 都 与 某 种 数据 类 型 相关 联 ， 这 种 类 型 可 以 是 
integer、date 或 varchar。varchar 表 示 长 度 可 以 变化 的 字符 串 。 括 号 内 的 数字 是 该 属性 的 值 所 能 具备 的 最 大 字符 数 。 


必须 先 等 关系 型 数据 库 的 建 模 者 把 表格 定义 好 ， 然 后 开发 者 才能 用 代码 在 表格 中 执行 数据 行 的 添加 、 删 除 及 更 新 操作 ， 而 文 
档 数 据 库 则 不 需要 这 一 步 。 开 发 者 无 需 提 前 定义 纲要 即 可 直接 创建 集合 与 集合 中 的 文档 ， 并 将 它们 插入 数据 库 (参见 图 6.6) 。 


关系 型 
数据 库 
数据 纲要 
建 模 者 


文档 数据 库 
编写 代码 


def insert 


def update 


实现 纲要 


执行 代码 


执行 代码 


图 6.6 关系 型 数据 库 需 要 有 明确 定义 好 的 纲要 ， 而 文档 数据 库 则 不 需要 


文档 数据 库 旨 在 适应 集合 内 的 各 种 文档 。 由 于 新 加 入 的 文档 可 能 会 与 集合 内 现 有 的 文档 不 同 ， 因 此 没有 必要 强迫 数据 建 模 者 
必须 先 把 文档 中 可 能 出 现 的 每 一 种 字段 全 都 指定 好 ， 然 后 再 去 构建 并 填充 数据 库 。 像 文档 数据 库 这 样 无 需 预先 定义 其 数据 结构 的 
数据 库 ， 通 常 称 为 无 纲要 的 (schemaless， 无 模式 的 ) 数据 库 。 


尽管 在 添加 文档 之 前 无 需 定义 纲要 ， 但 加 入 数据 库 中 的 这 些 文档 实际 上 还 是 隐 含 着 一 种 数据 组 织 结构 。 这 种 结构 在 操纵 这 些 
数据 库 文 档 的 代码 里 面 表现 得 较为 明显 。 


例如 ， 在 构建 前 文 所 描述 的 产品 数据 库 时 ， 就 会 用 代码 来 设置 每 张 CD 的 表演 者 、 制 作 人 、 音 轨 数 量 以 及 总 播放 时 长 等 属 
性 ; 同 理 ， 还 需要 通过 代码 来 分 别 设置 小 型 家 电 以 及 图 书 所 具备 的 特定 字段 。 此 外 ， 可 能 也 要 编写 一 些 通用 的 代码 来 设置 产品 名 
称 及 SKU 这 种 所 有 产品 都 具备 的 字段 。 

还 有 一 个 词 也 用 来 描述 文档 数据 库 ， 那 就 是 多 形 的 纲要 (polymorhic schema) 。Polymorphicl'| 源 自 拉丁 语 ， 它 的 字面 
意思 是 多 种 形状 。 用 这 个 词 来 描述 文档 数据 库 是 很 合适 的 ， 因 为 文档 数据 库 的 同一 个 集合 内 可 以 放 入 很 多 种 不 同类 型 的 文档 。 


四 在 面向 对 象 的 编程 语言 中 ， 该 词 也 称 为 多 态 。 


译 者 注 


6.3 “文档 数据 库 的 基本 操作 


文档 数据 库 的 基本 操作 与 其 他 类 型 的 数据 库 相 同 ， 也 包括 : 

“ 插入 

“ 删除 

“更 新 

“ 获取 

文档 数据 库 并 没有 一 套 标准 的 数据 操纵 语言 来 执行 上 述 操作 。 在 接 下 来 的 范例 中 ， 采 用 一 种 与 MongoDB 类 似 的 命令 格式 来 
执行 这 些 操作 。MongoDB 是 目前 最 为 流行 的 文档 数据 库 [1]。 


在 介绍 基本 的 操作 之 前 ， 还 需要 提出 另外 一 种 数据 结构 ， 那 就 是 数据 库 (database) 。 数 据 库 是 存放 集合 的 容器 ， 而 集合 
又 是 存放 文档 的 容器 。 这 三 种 数据 结构 之 间 的 逻辑 关系 如 图 6.7 所 示 。 


数据 库 


图 6.7 在 文档 数据 库 中 ， 数 据 库 是 级 别 最 高 的 逻辑 结构 ， 其 中 包含 由 文档 (doc) 所 组 成 的 各 种 集合 


注解 ”按照 惯例 ， 本 书 范例 代码 以 db 来 表示 数据 库容 器 。 在 提 到 某 个 集合 时 ， 把 db 放 在 集合 的 名 称 之 前 。 例 如 ， 存 放 客 户 
(customer) 数据 的 集合 就 叫做 db.customet。 在 集合 上 面 执 行 基 本 的 数据 库 操 作 时 ， 以 这 种 方式 来 指定 待 操 作 的 集合 。 


[1] DB-Engines Rankings (数据 库 流行 度 排 行 榜 ) ，http://db-engines.com/en/tanking。 


6.4 小 结 
文档 是 一 种 灵活 的 数据 结构 。 它 们 并 不 需要 有 预先 定义 好 的 纲要 ， 而 是 可 以 灵活 地 适应 结构 上 的 变化 。 一 组 相关 的 文档 可 以 
构成 一 个 集合 。 集 合 类 似 于 关系 型 数据 库 中 的 表格 ， 而 文档 则 类 似 于 表格 中 的 数据 行 。 


文档 数据 库 可 以 把 文档 灵活 地 划分 到 不 同 的 集合 之 中 ， 但 这 种 灵活 性 可 能 会 使 开发 者 做 出 不 太 合适 的 设计 方案 。 良 好 的 集合 
应 该 要 容纳 相似 的 实体 类 型 才 对 ， 而 其 中 各 个 文档 的 键 和 值 则 可 以 有 所 不 同 。 

有 的 时 候 ， 采 用 过 分 抽象 的 实体 可 能 会 影响 程序 的 性 能 ， 并 使 应 用 程序 的 代码 变 得 更 为 复杂 ， 如 早 前 提 到 的 系统 事件 实体 就 
是 这 样 。 然 而 在 另外 一 些 情况 下 ， 却 可 以 较为 合理 地 使 用 抽象 的 实体 类 型 ， 如 早 前 提 到 的 产品 实体 就 是 如 此 。 大 家 应 该 先 分 析 数 
据 库 应 用 程序 所 要 支持 的 查询 类 型 ， 然 后 再 据 此 来 拟定 数据 库 的 设计 方案 。 


与 关系 型 数据 库 不 同 ， 文 档 数据 库 并 没有 一 套 标准 的 查询 语言 。 本 章 及 后 续 章节 的 范例 代码 ， 其 语法 都 基于 同一 种 常用 的 文 
档 数据 库 。 尽 管 各 个 文档 数据 库 的 实现 细节 互 不 相同 ， 但 本 章 所 讲 的 原则 与 概念 应 该 是 通用 的 。 


6.5 复习 


阅 


1. 描 述 文档 数据 库 中 的 文档 。 
2. 说 出 文档 数据 库 保存 数据 所 用 的 两 种 格式 。 
3. 列 出 至 少 三 条 JSON 对 象 的 语法 规则 。 


4. 用 JSON 格 式 创建 一 份 描 述 小 型 家 用 电器 的 简单 文档 ， 其 中 要 包含 的 属性 是 家 用 电器 的 ID (appliance ID) 、 名 称 
(name) 、 描 述 (description) 、 高 度 (height) 、 宽 度 (width) 、 长 度 (length) 和 运输 重量 (shipping weight) 。 


5. 在 为 文档 集合 建 模 时 ， 为 什么 通常 不 应 该 使 用 过 于 抽象 的 实体 ? 
6. 什 么 情况 下 可 以 合理 地 使 用 抽象 程度 较 高 的 实体 ? 
7. 采 用 MongoDB 的 语法 编写 一 条 命令 ， 向 本 章 所 描述 的 db.books 集 合 中 插入 一 本 书 。 


8. 采 用 MongoDB 的 语法 编写 一 条 命令 ， 从 本 章 所 描述 的 db.books 集 合 中 删除 作者 为 Isaac Asimov ( 艾 萨 克 . 阿 西 莫 夫 ) 的 
书籍 。 
9. 采 用 MongoDB 的 语法 编写 一 条 命令 ， 从 本 章 所 描述 的 db.books 集 合 中 获取 数量 大 于 等 于 20 的 图 书 。 


10. 想 查询 某 个 键 的 值 是 否 符合 相关 的 标准 ， 应 该 采用 哪 一 种 查询 操作 符 ? 


6.6 引用 资料 


Chodorow, Kristina.50 Tips and Tricks for MongoDB Developers.Sebas-topol, CA: O’ Reilly Media, Inc., 2011. 
Chodorow, Kristina.MongoDB: The Definitive Guide.Sebastopol, CA: O’ Reilly Media, Inc., 2013. 

Copeland, Rick.MongoDB Applied Design Patterns.Sebastopol, CA: O’ Reilly Media, Inc., 2013. 

Couchbase Documentation: http://docs.couchbase.com/. 

MongoDB 2.6 Manual: http://docs.mongodb.org/manual/. 


O’ Higgins, Niall.MongoDB and Python: Patterns and Processes for the Popular Document-Oriented 
Database.Sebastopol, CA: O” Reilly Media, Inc., 2011. 


第 7 草 ”文档 数据 库 的 术语 


“我 们 必须 敢于 设想 不 可 思议 的 事情 。 在 这 复杂 多 变 的 世界 里 ， 我 们 必须 试 着 去 探索 每 一 种 可 能 。” 
一 一 麻 姆 斯 威廉， 福 布 莱特 (J.William Fulbright) 
美国 前 参议 员 
本 章 内 容 
与 文档 和 集合 有 关 的 术语 
与 分 区 类 型 有 关 的 术语 
与 数据 建 模 及 查询 处 理 有 关 的 术语 
前 一 章 介绍 了 文档 数据 库 的 基本 概念 。 本 章 将 从 理论 和 实践 层面 来 讲解 文档 数据 库 的 常用 术语 。 


注解 ”与 书 中 谈论 术语 的 其 他 章节 一 样 ， 本 章 的 目标 也 是 详细 描述 文档 数据 库 的 一 些 关键 术语 。 其 中 ， 有 的 术语 同样 适用 于 
其 他 分 布 式 数据 库 ， 而 另外 一 些 则 是 文档 数据 库 所 特有 的 。 


本 章 第 1 节 要 讲解 的 术语 与 文档 数据 库 的 基本 结构 有 关 。 在 学 习 上 一 章 的 过 程 中 ， 大 家 可 能 已 经 熟悉 这 些 概念 了 ， 但 此 处 要 
用 更 加 正规 的 形式 来 定义 它们 。 


本 章 第 2 节 中 的 术语 涉及 文档 数据 库 的 架构 。 该 节 所 给 出 的 术语 也 可 以 用 来 描述 其 他 分 布 式 数据 库 ， 尤 其 是 扩充 大 型 数据 库 
的 时 候 ， 更 需要 用 到 这 些 词汇 。 在 使 用 NoSQL 技 术 的 过 程 中 ， 会 经 常 提 到 这 些 说 法 。 


本 章 的 第 三 节 是 内 容 比 较 丰 富 的 一 节 ， 其 中 包含 与 文档 的 建 模 及 操作 有 关 的 术语 。 涉 及 文档 建 模 方面 的 词汇 都 是 一 些 宏观 概 
念 ， 而 具体 的 设计 模式 则 会 在 下 一 章 中 讲解 。 此 外 ， 还 会 给 出 其 他 一 些 重要 术语 ， 使 用 文档 数据 库 的 时 候 应 该 熟悉 那些 词汇 。 


7.1 与 文档 和 集合 有 关 的 术语 


文档 与 集合 是 文档 数据 库 的 基本 数据 结构 。 这 有 些 类 似 于 关系 型 数据 库 里 的 行 与 表 。 第 6 章 中 给 出 的 非 正规 描述 已 经 足以 使 
大 家 理解 文档 数据 库 的 基本 概念 了 ， 现 在 将 用 更 加 正规 的 定义 来 给 出 较为 精确 的 描述 ， 使 大 家 可 以 据 此 论证 这 些 结构 的 意义 。 


本 节 将 给 出 下 面 这 些 术语 的 定义 : 
-文档 

` 集合 

谱 入 式 文档 

“ 无 岗 要 的 数据 库 


* 多 形 的 纲要 


读 完 本 节 之 后 ， 应 该 会 学 到 如 何 把 文档 划分 为 集合 ， 而 且 应 该 能 理解 文档 数据 库 在 结构 方面 的 一 些 重要 特征 ， 这 些 特征 使 得 
大 家 可 以 更 加 灵活 地 设计 数据 库 。 开 发 者 之 所 以 喜欢 使 用 文档 数据 库 ， 其 中 一 个 主要 原因 就 在 于 此 。 


7.2 与 分 区 类 型 有 关 的 术语 


分 区 (partitioning) 是 NoSQL 领 域 中 经 常 使 用 的 一 个 词 ， 而 且 可 能 用 得 有 些 过 于 频繁 了 。 


第 2 章 介绍 了 CAP 定 理 ， 那 个 定理 描述 了 一 致 性 、 可 用 性 以 及 分 区 容忍 性 之 间 的 相互 制约 关系 。CAP 定 理 中 的 分 区 一 词 指 的 
是 把 网 络 区 分 成 (或 者 说 分 隔 成 ) 多 个 彼此 无 法 连通 的 部 分 。 


这 种 意义 上 的 分 区 对 所 有 的 分 布 式 数据 库 来 说 ， 都 是 个 重要 的 概念 ， 但 它 和 文档 数据 库 所 关注 的 分 区 不 同 。 在 讨论 文档 数据 
库 的 时 候 ， 如 果 提 到 分 区 一 词 ， 那 么 意思 可 能 是 说 把 文档 数据 库 中 的 数据 划分 成 不 同 的 部 分 ， 并 把 它们 分 布 到 不 同 的 服务 器 上 
面 。 


文档 数据 库 的 分 区 方式 有 两 种 ， 一 种 是 垂直 分 区 ， 另 一 种 是 水 平分 区 。 


一 定 要 根据 使 用 分 区 一 词 时 所 处 的 语 境 ， 来 分 辨 它 的 具体 售 义 (参见 图 7.6) 。 


之 则 没有 
网 络 连接 


文档 文档 


数据 库 数据 库 


数据 库 分 区 


图 7.6 ”分 区 一 词 在 不 同 的 语 境 下 具有 不 同 的 含义 ， 比 方 说 ， 网 络 通 信 方 面 的 分 区 与 文档 数据 库 的 分 区 就 不 是 同一 个 概念 


7.3 ”与 数据 建 模 及 埋 询 处 理 有 关 的 术语 


文档 数据 库 是 比较 灵活 的 ， 它 们 可 以 应 对 种 类 非常 丰富 的 文档 ， 也 可 以 很 好 地 处 理 同 一 个 集合 中 不 同 结构 的 文档 。 假 如 现在 
开始 设计 文档 数据 库 ， 那 么 可 能 会 从 数据 库 所 要 运行 的 一 些 查 询 请 求 开始 构思 。 (这 至 少 是 一 种 良好 的 切入 方式 。) 但 假如 要 设 
计 的 是 关系 型 数据 库 ， 那 玖 怕 就 要 从 待 建 模 的 实体 以 及 实体 之 间 的 关系 入 手 了 。 


在 大 概 了 解 实体 及 其 关系 之 后 ， 或 许 会 进行 一 项 名 为 规范 化 (normalization) 的 处 理 流程 。 如 果 以 后 发 现 数据 库 出 现 了 性 
能 问题 ， 那 么 或 许 还 要 执行 另外 一 项 名 为 去 规范 化 (denormalization) 的 流程 。 从 某 种 程度 上 来 说 ， 去 规范 化 的 流程 是 由 执行 
效率 较 低 的 查询 请 求 所 促 发 的 ， 因 为 在 审阅 查询 处 理 器 (query processor) 所 输出 信息 时 会 发 现 这 种 情况 ， 进 而 启动 去 规范 化 


的 流程 。 


大 家 有 必要 熟悉 规范 化 和 去 规范 化 这 两 种 流程 ， 因 为 在 给 文档 数据 库 建 模 的 时 候 很 可 能 会 碰 到 这 些 概 念 。 与 关系 型 数据 库 中 
的 同名 流程 相 比 ， 文 档 数据 库 的 这 两 种 流程 都 显得 不 那么 正式 ， 因 此 ， 笔 者 在 这 里 会 用 一 种 比 专门 讲解 关系 型 数据 库 的 书籍 更 为 


简单 的 方式 来 解释 它们 。 


文档 数据 库 也 会 实现 查询 处 理 器 ， 以 便 能 找到 一 种 最 为 理想 的 执行 顺序 来 执行 与 获取 数据 的 查询 请 求 有 关 的 那些 步骤 。 


7.4 小 结 


文档 数据 库 中 的 某 些 术语 是 此 类 数据 库 所 特有 的 ， 而 另外 一 些 术 语 则 与 其 他 NoSQL 数 据 库 及 关系 型 数据 库 相 通 。 文 档 好 似 
表格 中 的 数据 行 ， 而 集合 则 相当 于 关系 型 数据 库 中 的 表格 。 文 档 数 据 库 的 分 区 技术 ， 尤 其 是 分 片 技术 ， 可 以 把 大 型 数据 库 切 割 到 
多 台 服 务 器 上 面 ， 以 提升 性 能 。 规 范 化 、 去 规范 化 以 及 查询 处 理 器 也 在 文档 数据 库 的 总 体 性 能 提升 之 中 扮演 着 重要 的 角色 。 


第 8 章 将 会 深入 讲解 与 文档 数据 库 的 设计 有 关 的 话题 。 


7.5 复习 


阅 


1. 描 述 文档 数据 库 的 文档 与 关系 型 数据 库 的 数据 行 之 间 的 相似 性 。 
2. 描 述 文档 数据 库 的 集合 与 关系 型 数据 库 的 表格 之 间 的 相似 性 。 
3. 给 出 schema (纲要 ， 模 式 ) 一 词 的 定义 。 

4. 为 什么 说 文档 数据 库 是 无 纲要 的 ? 

5. 为 什么 说 文档 数据 库 是 多 形 的 ? 

6. 垂 直 分 区 与 水 平分 区 (或 分 片 ) 有 什么 区 别 ? 

7. 什 么 叫做 分 片 键 ? 

8. 在 分 片 过 程 中 为 什么 要 使 用 分 区 算法 ? 

9. 什 么 叫做 规范 化 ? 


10. 为 什么 要 对 文档 数据 库 的 集合 执行 去 规范 化 操作 ? 
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第 8 草 ”文档 数据 库 的 设计 


“无 论 从 哪个 方面 看 ， 良 好 的 判断 力 都 是 关键 技能 。” 
一 一 彼得 德 鲁 克 (Peter Drucker) 
作家 及 管理 顾问 
本 章 内 容 
在 规范 化 与 去 规范 化 之 间 求 得 平衡 
应 对 可 变 的 文档 
编制 数量 适中 的 索引 
为 常见 的 关系 建 模 
案例 研究 : 客户 的 货物 清单 


设计 者 在 面 对 文档 数据 库 的 时 候 ， 有 很 多 选项 。 文 档 数 据 库 之 所 以 灵活 ， 其 关键 因素 之 一 就 在 于 ， 数 据 库 所 用 的 JSON 和 
XML 文 件 格 式 的 结构 非常 灵活 。 设 计 者 既 可 以 在 文档 中 的 大 列表 里 庶 入 小 列表 ， 也 可 以 把 不 同类 型 的 数据 分 割 到 不 同 的 集合 里 
面 。 可 是 ， 这 种 自由 度 并 不 意味 着 所 有 的 数据 模型 都 设计 得 一 样 好 ， 实 际 上 ， 它 们 之 间 还 是 有 优 劣 之 分 的 。 


本 章 要 使 读者 明白 如 何 评判 文档 数据 库 的 数据 模型 ， 以 及 怎样 用 最 合适 的 技术 来 满足 自己 的 需求 。 


关系 型 数据 库 的 设计 者 在 评判 数据 模型 时 ， 可 以 援引 规范 化 流程 所 用 到 的 各 条 规则 。 通 常 来 说 ， 设 计 关 系 型 数据 模型 时 ， 要 
避免 在 执行 插入 、 更 新 或 删除 操作 时 发 生 数 据 异常 。 比 方 说 ， 如 果 数 据 库 中 多 次 存放 了 某 位 顾客 的 当前 住址 ， 那 就 可 能 出 现 其 中 
一 个 或 多 个 住址 已 经 更 新 ， 而 另外 一 些 住址 信息 尚未 得 到 更 新 的 情况 。 在 那 种 情况 下 ， 到 底 哪 一 个 地 址 才 是 顾客 当前 的 住址 呢 ? 


再 举 个 例子 ， 假 如 不 把 顾客 的 信息 与 顾客 的 订单 分 开 存 放 ， 而 是 把 它们 放 在 了 一 起 ， 那 么 ， 如 果 顾 客 的 所 有 订单 都 遭 到 删 
除 ， 则 这 位 顾客 的 信息 就 会 全 部 丢失 。 为 了 避免 这 些 数 据 异常 现象 ， 必 须 依 照相 关 的 规则 对 数据 库 进行 规范 化 处 理 ， 这 些 规则 都 
可 以 从 各 种 范例 之 中 顺理成章 地 归纳 出 来 。 


注解 ”文档 数据 库 的 建 模 者 在 设计 数据 库 时 ， 更 多 的 是 通过 试探 法 或 者 说 经 验 法 则 来 进行 的 。 这 些 法 则 并 不 像 关系 型 数据 库 
的 规范 化 规则 那样 正式 和 严谨 。 例 如 ， 无 法 单单 通过 文档 数据 库 模型 的 描述 信息 来 推测 这 个 模型 的 效率 ， 而 是 必须 根据 用 户 查 询 
数据 库 的 方式 、 用 户 所 插入 的 数据 量 以 及 用 户 更 新 文档 的 频率 和 方式 等 因素 去 判断 。 


本 章 将 要 讲解 规范 化 和 去 规范 化 这 两 种 流程 ， 并 告诉 大 家 如 何在 设计 文档 数据 库 的 模型 时 运用 它们 。 大 家 还 会 看 到 文档 的 更 
新 操作 (尤其 是 文档 尺寸 的 变化 ) 给 数据 库 带 来 的 影响 。 索 引 能 够 显著 缩短 查询 请 求 的 响应 时 间 ， 但 在 插入 或 更 新 文档 时 ， 却 有 
可 能 要 人 花 很 长 的 时 间 去 更 新 索引 ， 因 此 要 在 这 两 个 方面 之 间 做 出 权衡 。 开 发 者 在 设计 文档 数据 库 的 过 程 中 逐渐 总 结 了 一 些 设计 模 
式 ， 本 章 稍 后 也 会 介绍 它们 并 讨论 其 用 法 。 


在 早 前 章节 中 ， 曾 经 虚构 了 一 家 运输 公司 ， 本 章 最 后 的 那个 案例 研究 将 讨论 如 何 用 文档 数据 库 来 追踪 该 公司 承接 的 运单 之 中 


所 含 的 货品 。 


8.1 在 规范 化 与 去 规范 化 之 间 求 得 平衡 


如 果 没有 用 过 关系 型 数据 库 ， 那 可 能 不 会 想到 规范 化 这 个 词 居然 和 消除 多 余数 据 有 天。 根据 关系 型 数据 库 的 设计 理论 ， 元 余 
数据 是 一 项 负面 因素 ， 至 少 可 以 说 ， 它 不 应 该 出 现在 关系 型 数据 库 之 中 。 宛 余数 据 是 数据 异常 的 根源 ， 比 方 说 ， 每 位 顾客 的 当前 
住址 只 能 有 一 个 ， 如 果 数 据 库 里 保存 了 两 个 当前 地 址 ， 那 就 会 出 问题 。 


根据 数据 库 设 计 理 论 ， 建 模 者 应 该 消除 元 余数 据 ， 以 尽力 降低 数据 异常 的 出 现 概率 ， 但 正如 阿尔 伯 特 - 爱 因 斯 坦 所 说 “从 理 
论 上 讲 ， 理 论 和 实践 是 一 致 的 ， 但 实际 上 ， 它 们 却 不同 。” 关 系 型 数据 库 的 性 能 ， 有 时 候 会 因为 使 用 了 规范 化 的 模型 而 变 得 低 


ET 


订单 促 铺 


人 小 
| 于 让 和 


图 8.1 经 过 规范 化 处 理 之 后 的 数据 库 会 用 不 同 的 表格 来 表示 不 同 的 实体 。 与 各 实体 有 关 的 数据 会 分 别 隔离 在 多 张 表格 之 中 ， 从 


而 避免 了 多 余 的 数据 


图 8.1 描 述 了 一 个 简单 的 规范 化 数据 模型 ,该 模型 是 针对 顾客 、 订 单 和 产品 进行 建 模 的 。 在 如 此 简单 的 一 个 模型 中 ， 必 须 用 8 
张 表格 才能 把 与 各 实体 有 关 的 全 部 数据 都 涵盖 进来 。 这 些 表格 所 包括 的 内 容 如 下 : 


* 客户 的 基本 信息 (Customer) ， 其 中 的 字段 有 客户 姓名 及 客户 ID 等 。 
: 参与 忠诚 计划 的 会 员 (Loyalty Program Member) ， 其 中 的 字段 有 入 会 日 期 、 自 加 入 以 来 所 消费 的 金额 以 及 客户 ID 等 。 
“ 客户 住址 (Customer Address) ， 其 中 的 字段 有 街道 、 城 市 、 州 、 客 户 居于 该 地 址 的 起 始 日 期 和 终止 日 期 以 及 客户 ID 等 。 


- 客户 的 信用 记录 报表 (Customer Credit History) ， 其 中 的 字段 有 信用 等 级 、 客 户 处 于 该 等 级 的 起 始 日 期 和 终止 日 期 以 及 客 


户 ID 等 。 
. 订单 (Order) ， 其 中 的 字段 有 订单 ID、 顾 客 ID 以 及 发 货 日 期 等 。 
. 订单 项 (Order Item) ， 其 中 的 字段 有 订单 ID、 该 项 目的 ID、 产 品 ID、 数 量 以 及 价格 等 。 
: 产品 (Product) ， 其 中 的 字段 有 产品 ID、 产 品名 称 以 及 产品 描述 等 。 
.日常 存货 量 (Daily Inventory Level) ， 其 中 的 字段 包括 产品 ID、 日 期 以 及 剩余 的 库存 等 。 
促销 (Promotion) ， 其 中 的 字段 包括 促销 活动 的 ID、 促 销 活 动 的 描述 信息 以 及 促销 的 开始 日 期 等 。 
: 促销 活动 与 客户 的 对 应 关系 〈Promotion to Customer) ， 其 中 的 字段 包括 促销 活动 的 ID 以 及 客户 的 ID 等 。 


图 8.1 中 的 每 个 方 框 都 表示 数据 模型 中 的 一 个 实体 ， 实 体 之 间 的 连 线 表示 实体 间 的 关系 。 


8.2 ”应 对 可 变 的 文档 


事物 总 是 会 变化 ， 从 宇宙 诞生 之 初 就 一 直 如 此 ， 而 且 还 会 持续 变化 下 去 。 设 计数 据 库 时 ， 一 定 要 记 住 这 一 点 。 


有 些 文档 变动 很 频繁 ， 而 另 一 些 文档 则 不 太 会 发 生 改变 。 如 果 某 份 文档 中 保存 了 一 个 统计 网 页 访问 量 的 计数 器 ， 那 么 该 文档 
每 分 钟 可 能 要 变动 上 百 次 ， 而 保存 服务 器 事件 日 志 的 数据 表 则 只 会 在 服务 器 于 加 载 过 程 中 发 生 错 误 时 才 会 出 现 变化 ， 此 时 会 把 表 
示 该 错误 的 事件 数据 复制 到 文档 数据 库 里 。 设 计 文档 数据 库 的 时 候 ， 不 仅 要 考虑 文档 的 修改 频率 ， 而 且 还 要 关注 文档 的 尺寸 会 不 


会 变化 。 
递增 某 个 计数 器 或 是 修正 某 个 字段 ， 并 不 会 显著 改变 文档 的 大 小 。 但 是 下 面 这 几 种 情况 就 不 同 了 : 
" 车 队 内 的 每 一 辆 卡车 每 3 分 钟 就 会 把 自己 的 地 上 点、 油料 消耗 以 及 其 他 指标 发 送 给 公司 的 卡车 管理 数据 库 。 


股票 价格 会 随 着 交易 而 发 生变 化 ， 因 此 每 分 钟 都 需要 重新 查询 股价 。 如 果 发 现 这 次 查 到 的 价格 与 上 次 不 同 ， 那 就 要 把 新 价 
格 写 入 数据 库 之 中 。 


. 应 用 程序 要 分 析 社 交 网 站 上 面 的 一 系列 帖子 ， 并 从 中 统计 出 帖子 的 总 数 、 每 一 帖 的 总 体 人 气 ， 以 及 其 中 提 到 的 公司 、 名 
人 、 公 职 人 员 及 机 构 。 应 用 程序 在 收集 信息 的 过 程 中 ， 会 持续 地 更 新 数据 库 。 


需要 写 入 数据 库 中 的 数据 集 数 量 会 随 着 时 间 而 增多 。 那 么 ， 为 了 更 好 地 处 理 这 些 输 入 的 数据 流 ， 应 用 程序 的 设计 者 应 该 怎样 


安排 文档 的 结构 呢 ? 一 种 办 法 是 为 每 个 新 的 数据 集 创建 一 份 新 文档 。 以 卡车 所 发 送 的 工作 数据 为 例 ， 这 份 新 文档 中 可 以 包含 卡车 
ID、 时 间 、 地 点 等 数据 : 


{ 


truek Tds 5 II87V1217 
time: '08:10:00', 


date : 127-May-2015', 
driver name: 'Jane Washington', 
fuel consumption rate: '14.8 mpg', 


每 辆 卡车 每 小 时 发 送 20 笔 数据 ， 如 果 每 天 工作 10 小 时 ， 那 就 要 发 送 200 笔 数据 。 而 truck_id、date 及 driver_name 字 段 在 这 
200 份 文档 之 中 都 是 相同 的 ， 所 以 显然 应 该 可 以 将 这 些 工作 数据 各 自视 为 一 份 小 文档 ， 并 将 其 幅 入 表示 某 辆 卡车 在 某 一 天 的 工作 
状况 的 那 份 大 文档 之 中 。 保 存 工作 数据 的 那些 小 文档 可 以 放 在 一 个 数组 里 面 : 


{ 


truck id: 'T87V12', 

date : '27-May-2015', 

driver name: 'Jane Washington', 
operational data: 


[ 


{time : '00:01', 
fuel consumption rate: '14.8 mpg'， 
{time : '00:04', 
fuel consumption rate: '12.2 mpg'， 
{time : '00:07', 
fuel consumption rate: '15.1 mpg'， 


. ] 


刚 开 始 ， 数 组 中 只 有 一 条 工作 记录 ，10 小 时 的 工期 结束 之 后 ， 数 组 里 会 有 200 条 记录 。 

在 能 够 满足 查询 需求 的 前 提 下 ， 如 果 从 逻辑 角度 来 审视 这 个 模型 ， 那 就 会 党 得 这 样 安排 文档 结构 是 非常 合适 的 ， 然 而 从 物理 
角度 来 看 ， 这 套 模 型 却 有 可 能 引发 性 能 问题 。 

创建 文档 的 时 候 ， 数 据 库 管 理 系统 会 为 该 文档 分 配 一 定量 的 空间 ， 然 而 为 了 应 对 将 来 的 增长 ， 数 据 库 所 分 配 的 这 个 空间 会 比 


文档 本 身 大 一 些 。 如 果 文档 的 尺 十 超过 了 刚 开始 分 配 的 空间 ， 那 么 数据 库 必须 把 该 文档 移动 到 其 他 地 方才 行 ， 这 需要 先 从 现 有 位 
置 读 出 文档 中 的 数据 ， 然 后 将 其 复制 到 另 一 个 位 置 ， 同 时 还 要 释放 该 文档 原来 所 占 的 空间 ， 如 图 8.7 所 示 。 


{ 
分 配给 该 文档 |  : | 
a 最 初 的 文档 足够 大 的 空间 
的 空间 

， 


插入 庞大 的 字段 
. > 还 需 占用 的 空间 
} 
f 
足够 大 的 空间 
复制 到 新 的 位 置 
} 


图 8.7 ”如 果 文 档 变 得 比 刚 开 始 分 配给 它 的 空间 还 要 大 ， 那 就 必须 移动 到 其 他 地 方才 行 ， 这 会 增加 存储 系统 的 负担 ， 也 会 降低 应 
用 程序 的 性 能 


避免 移动 过 大 的 文档 


要 想 避 免 由 移动 大 文档 所 引发 的 性 能 损失 ， 一 种 办 法 是 创建 文档 的 时 候 就 给 它 分 配 足够 的 空间 。 在 保存 卡车 工作 数据 的 那 份 
文档 中 ， 可 以 在 创建 大 文档 之 初 就 给 其 中 内 入 200 份 小 文档 ， 并 给 相应 的 字段 填 上 默认 值 。 等 到 卡车 发 来 实际 的 数据 时 ， 数 据 库 
再 把 这 些 实际 值 写 入 数组 中 相应 的 条 目 里 面 ， 如 图 8.8 所 示 。 


{truck_id: T8V12 
date: 27-May-2015 
operational data: 
[{time: 00 : 00 ， 
fuel consumption _rate: 0.0} 
{time: 00 : 00 ， 
fuel consumption_rate: 0.0} 


200 份 含有 默认 值 
的 租 入 式 文档 


{time: ‘00 : 00 ， 
fuel consumption_rate: 0.0} 


] 


图 8.8 ”在 创建 文档 时 ， 根 据 该 文档 将 来 的 大 小 提前 给 它 分 配 足 够 的 空间 ， 以 减少 迁移 文档 的 几率 


应 该 根据 文档 尺寸 在 整个 生命 期 内 的 变化 情况 ， 来 尽 可 能 地 为 它 预 留 足 够 的 空间 。 如 果 刚 开始 分 配 的 空间 完全 能 应 对 该 文档 
在 各 阶段 的 尺寸 变化 ， 那 就 可 以 减少 由 MO 操作 所 引发 的 开销 了 。 


8.3 ”编制 数量 适中 的 索引 


天 文学 者 用 Goldilocks Zone ( 宜 居 带 、 适 居 带 、 古 迪 洛 克 带 ) 这 个 词 来 描述 恒星 周围 的 特定 区 域 ， 在 该 区 域内 的 行星 是 可 
以 供 生物 居住 的 。 其 要 义 在 于 ， 这 个 区 域 离 太 阳 既 不 能 太 近 ( 太 近 就 太 热 了 ) ， 又 不 能 太 远 ( 太 远 就 太 冷 了 ) ， 而 是 要 远近 适 
中 。 设 计 文 档 数据 库 的 时 人 息 ， 也 要 考虑 索引 的 合适 数量 。 如 果 索 引 太 少 ， 那 么 读 取 数据 的 效率 就 不 高 ;有 反之， 若是 太 多 ， 则 写 入 
数据 的 效率 又 会 变 低 。 


8.4 为 常见 的 关系 建 模 


收集 需求 并 设计 文档 数据 库 的 时 候 ， 很 可 能 需要 为 下 列 三 种 常见 的 关系 建 模 : 


: 一 对 多 关系 


前 两 种 关系 都 是 指 两 个 集合 之 间 的 关系 ， 而 第 三 种 天 系 则 有 可 能 牵涉 同一 集合 内 任意 数量 的 相关 文档 。 早 前 讨论 规范 化 流程 
的 时 候 ， 讲 过 一 对 一 关系 和 一 对 多 关系 ， 那 时 主要 是 为 了 解释 经 过 规范 化 处 理 之 后 的 数据 模型 为 什么 需要 进行 连接 Uoin) 操 
作 ， 而 现在 的 重点 则 是 如 何在 文档 数据 库 中 高 效 地 实现 这 些 关 系 。 下 面 几 个 小 节 将 会 讲解 为 这 三 种 关系 进行 建 模 时 所 用 到 的 设计 
模式 。 


8.5 小 结 


本 章 讲述 了 为 文档 数据 库 建 模 时 所 应 注意 的 几 个 关键 问题 ， 对 文档 数据 库 的 讲解 就 此 告 一 段落 。 


规范 化 和 去 规范 化 是 两 种 有 用 的 处 理 流程 。 规 范 化 可 以 减少 数据 异常 的 发 生 概率 ， 而 去 规范 化 则 能 够 改善 性 能 。 在 为 文档 数 
据 库 建 模 时 ， 去 规范 化 是 一 种 常见 的 做 法 。 去 规范 化 的 一 个 好 处 在 于 可 以 减少 或 消除 需要 执行 连接 操作 的 场合 。 连 接 操作 是 一 种 
复杂 的 、 消 耗资 源 的 操作 ， 去 规范 化 有 助 于 避免 这 种 操作 ， 然 而 有 的 时 候 还 是 需要 在 应 用 程序 中 执行 连接 操作 。 文 档 数据 库 一 般 
来 说， 并 不 支持 连接 操作 。 


建 模 时 除了 要 考虑 逻辑 层面 的 问题 之 外 ， 还 应 该 考虑 设计 方案 的 物理 实现 问题 。 尤 其 要 注意 可 变 的 文档 ， 它 们 也 许 会 影响 程 
序 的 性 能 。 如 果 文档 的 尺 十 超过 了 刚 开始 分 配给 它们 的 存储 空间 ， 那 么 这 些 文档 可 能 就 需要 移动 到 磁盘 等 持久 化 存储 区 的 其 他 位 
置 上 面 。 这 会 引发 额外 的 数据 写 入 行为 ， 从 而 降低 程序 执行 更 新 操作 的 效率 。 


在 实现 方面 ， 还 有 一 个 重要 的 话题 ， 那 就 是 索引 。 应 用 程序 所 编制 的 索引 数量 必须 要 适中 ， 所 编制 的 这 些 索 引 都 应 该 有 助 于 
改善 查询 请 求 的 处 理 速度 。 虽 说 索引 能 够 提升 查询 请 求 的 处 理 效率 ， 但 如 果 某 些 索 引 严重 影 响 写 入 操作 的 效率 ， 那 就 不 应 该 编制 
这 些 索 引 了 。 考 虑 索引 编制 问题 时 ， 需 要 在 快速 响应 查询 请 求 与 快速 处 理 插入 及 更 新 操作 之 间 求 得 平衡 。 


最 后 讲 了 如 何 用 设计 模式 来 为 三 种 常见 的 关系 建 模 ， 这 三 种 关系 是 一 对 多 关系 、 多 对 多 关系 以 及 层级 关系 。 有 了 时 会 用 府 入 式 
文档 实现 这 些 关 系 ， 但 在 另外 一 些 情况 下 ， 可 以 使 用 指向 其 他 文档 的 标识 符 来 更 好 地 表现 它们 。 


本 书 第 四 部 分 会 介绍 列 族 数据 库 。 这 是 另外 一 种 重要 的 NoSQL 数 据 库 ， 它 尤其 适合 用 来 管理 那 种 包含 几 百 万 个 行 与 列 的 数 
据 集 。 


8.6 ”案例 研究 : 客户 的 货物 清 


第 1 章 中 提 到 了 一 家 名 为 TransGlobal Transport and Shipping (TGTS) 的 虚构 公司 ， 它 为 各 种 商户 提供 全 球 货运 服务 。 
随 着 业务 的 增长 ，TGTS 所 要 运输 和 记录 的 各 类 货品 也 变 得 复杂 起 来 。 分 析 师 收集 了 相关 的 需求 ， 并 对 需要 运输 的 集装箱 数量 做 
了 粗略 估算 。 他 们 发 现 有 一 些 字 段 是 所 有 集装箱 都 需要 具备 的 ， 而 另外 一 些 字段 则 是 某 些 特定 的 集装箱 所 专用 的 。 


每 个 集装箱 都 有 一 组 天 键 的 字段 ， 如 客户 名 称 、 发 货 方 、 收 货 方 、 货 品 内 容 概述 、 集 装 箱 中 的 货品 数量 、 危 险 品 标示 、 水 果 
i 
x 


此 外 ， 某 些 集装箱 还 需要 具备 专门 的 信息 。 危 险 品 必须 伴 有 材料 安全 性 数据 表 (Material Safety Data Sheet, MSDS) ， 
其 中 包括 处 理 危险 品 的 紧急 救援 人 员 信 息 。 易 变质 的 食品 必须 包含 与 食品 检验 有 关 的 详细 信息 ， 诸 如 检验 人 员 的 姓名 、 负 责 检验 
的 机 构 以 及 检验 机 构 的 联系 信息 等 。 


分 析 人 员 发 现 70%~80% 的 请 求 都 只 会 返回 一 条 清单 记录 。 这 些 请 求 通常 是 根据 清单 的 标识 符 或 客户 名 称 、 装 运 日 期 、 发 货 


方 等 标准 进行 查询 的 。 剩 余 20%~30% 的 请 求 大 部 分 都 是 与 客户 有 关 的 综合 报表 ， 其 中 会 列 出 各 运单 都 具备 的 一 些 信息 。 经 理 偶 
尔 也 会 根据 运输 类 型 (如 危险 品 、 易 变质 食品 等 ) 生成 综合 报表 ， 但 这 种 情况 非常 少见 。 


公司 的 管理 者 告诉 分 析 师 ， 公 司 计划 在 未 来 的 12~ 18 个 月 内 大 幅 扩展 业务 规模 。 分 析 师 意识 到 将 来 会 有 更 多 类 型 的 货物 需要 
运输 ， 而 且 与 拥有 特定 字段 的 危险 品 和 易 变 质 食品 一 样 ， 这 些 货物 可 能 也 要 包含 各 自 特 有 的 信息 。 他 们 还 发 现 ， 现 在 必须 为 以 后 
的 数据 扩充 做 好 准备 ， 使 得 数据 库 可 以 支持 新 的 字段 。 根 据 这 些 情况 ， 分 析 师 们 决定 使 用 支持 水 平 扩展 且 具 备 灵 活 结构 的 文档 数 
据 库 。 


开始 设计 文档 与 集合 的 时 候 ， 他 们 首先 考虑 所 有 货物 清单 都 需要 具备 的 字段 ， 并 决定 设立 包含 下 列 字段 的 清 
(Manifests) 集合 : 


. 客户 名 称 

“ 客户 联系 人 的 名 称 
“ 客户 地 址 

. 客户 电话 号 码 

“ 客户 传真 

“ 客户 电子 邮箱 

发 货 方 

. 收 货 广 

. 装运 日 期 

“ 预计 的 收 货 日 期 
集装箱 内 的 货品 数量 


接 下 来 ， 他 们 考虑 易 变质 食品 和 危险 品 专用 的 字段 ， 并 决定 把 这 些 特 殊 字 段 都 规整 到 各 自 的 文档 之 中 。 那 么 ， 现 在 要 决定 的 
就 是 ， 这 些 专 有 文档 是 应 该 谋 入 清单 文档 ， 还 是 应 该 单独 放 到 另外 的 集合 里 面 。 


8.7 复习 


阅 


1. 规 范 化 的 好 处 是 什么 ? 

2. 去 规范 化 的 好 处 是 什么 ? 

3. 连 接 (join) 操作 的 开销 为 什么 比较 大 ? 

4. 文 档 数 据 库 的 建 模 者 如 何 避 免 开 销 较 大 的 连接 操作 ? 

5. 如 果 文 档 中 的 数据 过 多 ， 那 么 除了 操作 这 些 数据 所 引发 的 开销 之 外 ，MO 子 系统 还 会 有 更 多 的 负担 ， 这 是 为 什么 ? 


6 .文档 数据 库 的 建 模 者 如 何 才能 避免 问题 5 中 提 到 的 那些 额外 负担 ? 


7. 举 例 说 明 在 何 种 情况 下 需要 为 文档 数据 库 的 集合 编制 大 量 的 索引 ? 
8. 在 什么 情况 下 需要 尽量 缩减 文档 集合 的 索引 数量 ? 
9. 如 何 为 多 对 多 的 关系 建 模 ? 


10. 有 哪 三 种 方式 可 以 为 文档 数据 库 中 的 层级 关系 建 模 ? 
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第 四 部 分 “ 列 族 数据 库 


第 9 章 “” 列 族 数据 库 简介 
第 10 章 ” 列 族 数据 库 的 术语 
第 11 章 ” 列 族 数据 库 的 设计 


第 9 章 ” 列 族 数 据 库 简 介 


“家 族 是 大 自然 的 杰作 。” 


乔治 柔 塔 亚 那 (George Santayana) 


较 早出 现 的 列 族 数 据 库 : Google BigTable 

列 族 数据 库 与 键 值 数据 库 及 文档 数据 库 的 异同 
列 族 数据 库 所 用 的 架构 

列 族 数 据 库 的 适用 场合 


大 数据 (Big Data) 或 大 型 数据 库 是 个 较为 主观 的 概念 。 有 一 百 万 行 数据 的 MySQL 表 格 算 不 算 大 ? 对 某 些 人 来 说 确实 很 
大 ,但 对 另外 一 些 人 来 说 则 只 能 算是 中 等 ， 甚 至 还 有 人 觉得 它 小 。 但 是 ， 如 果 表 格 尺寸 增加 到 | 数 十 亿 行 和 上 万 列 ， 那 么 毫 无 疑 
问 ， 它 肯定 是 一 张大 型 表格 。 无 论 从 哪个 角度 看 ， 这 都 是 个 超大 型 数据 库 (Very Large Database, VLDB) 。 


关系 型 数据 库 可 以 通过 由 几 台 大 型 服务 器 所 构成 的 群 组 来 应 对 VLDB， 但 这 样 做 的 成 本 实在 太 高 了 。 键 值 数据 库 虽 然 有 某 些 
特性 可 以 适应 这 种 规模 的 数据 量 ， 但 它 却 没有 相应 的 机 制 能 把 多 个 列 划分 成 组 ， 并 把 经 常 同时 用 到 的 数据 存放 在 一 起 。 文 档 数据 
库 或 许 能 够 应 对 如 此 庞大 的 数据 [， 可 还 是 缺少 了 管理 大 规模 数据 所 需 的 一 些 特性 ， 如 与 SQL 相仿 的 查询 语言 。 


Google、Facebook、Amazon 和 Yahool! 等 公司 都 需要 找到 能 够 应 对 VLDB 的 解决 方案 。 在 2006 年 ，Google 发 表 了 一 篇 
题 为 《BigTable: A Distributed Storage System for Structured Data》 的 论文 所 。 这 篇 文章 描述 了 一 种 新 型 数据 库 ， 也 就 是 
列 族 数据 库 。Google 设 计 这 种 数据 库 是 为 了 给 很 多 大 型 服务 使 用 的 ， 如 Web indexing (网 页 索引 ) 、Google Earth (谷歌 地 
球 ) 及 Google Finance (谷歌 财经 ) 等 。BigTable 成 了 实现 超大 规模 NoSQL 数 据 库 的 样板 。 其 他 的 列 族 数据 库 有 Cassandra、 


HBase 及 Accumulo 等 。 


注解 ”尽管 数据 库 开发 者 已 经 就 键 值 数 据 库 、 文 档 数据 库 和 图 数据 库 的 术语 达成 了 一 致 ， 但 在 列 族 数 据 库 方面 ， 仍 有 一 些 分 
歧 。 这 种 NoSQL 数 据 库 有 时 也 叫做 宽 列 数据 库 ， 这 个 称呼 是 为 了 强调 此 类 数据 库 能 够 管理 上 万 列 数据 的 能 力 。 由 于 此 类 数据 库 
缺乏 关系 型 数据 库 的 菜 些 特性 ， 所 以 有 人 把 它们 称 为 数据 存储 (data store) 而 不 称 其 为 数据 库 (database) 。 本 书 之 所 以 采用 列 族 
数据 库 (column family database) 来 指 代 它 们 ， 其 原因 有 二 。 第 一 ， 这 种 称呼 能 够 强调 通过 列 族 对 列 进行 分 组 这 一 重要 功能 ; 第 
二 ， 这 种 称呼 可 以 体现 出 NoSQL 数 据 库 是 真正 的 数据 库 管 理 系统 这 一 理念 。 尽 管 NoSQL 数 据 库 缺乏 关系 型 数据 库 的 某 些 特性 ， 
但 它们 毕竟 是 一 种 数据 库 。 关 系 型 数据 库 确 实 很 流行 ， 而 且 功 能 也 很 丰富 ， 然 而 不 能 仅 以 此 为 标准 来 判断 其 他 产品 是 不 是 一 种 数 
据 库 或 数据 库 管 理 系统 。 


[1] 参见 Chtis Biow 和 Miles Ward 所 写 的 《PetaMongo: A Petabyte Database for as Little as $200》 ,AWS re:Invent Conference, 2013。 网 
址 是 http://www.slideshare.net/mongodb/petamongo-a-petabyte-database-for-as-little-as-200 。 
[2 参见 Fay Chang 等 所 写 的 《BigTable: A Distributed Storage System for Structured Data 》, OSDI” 06: Seventh Symposium on 


Operating System Design and Implementation, Seattle, WA, November, 2006。 网 址 是 http://reseatch.google.com/archive/bigtable.html。 


9.1 ” 较 早出 现 的 列 族 数 据 库 : Google BigTable 


Google BigTable 的 核心 特性 有 : 
" 开发 者 可 以 动态 地 控制 列 族 中 的 各 列 。 
. 数据 值 是 按照 行 标识 符 、 列 名 及 时 间 玲 来 定位 的 。 
* 数据 建 模 者 和 开发 者 可 以 控制 数据 的 存储 位 置 。 


“ 读 取 操作 和 写 入 操作 都 是 原子 操作 。 


“ 数据 行 是 以 某 种 顺序 来 进行 维护 的 。 
如 图 9.1 所 示 ， 行 是 由 列 族 构成 的 ， 每 个 列 族 都 包含 一 组 相关 的 列 。 例 如 ， 表 示 地 址 信息 的 列 族 可 能 会 包含 下 面 几 个 列 : 
* 街道 地 址 
城市 
州 或 省 
:邮政 编码 
* 国家 


列 族 用 来 把 经 常 同 时 用 到 的 数据 项 归 为 一 组 。 对 于 同一 行 来 说 ,不同 的 列 族 在 磁盘 中 的 存储 位 置 有 可 能 相 邻 ， 也 有 可 能 不 相 
邻 ， 然 而 列 族 内 的 各 列 是 会 保存 在 一 起 的 。 


客户 信息 
名 学 姓氏 信用 积分 


10-Oct-14 10-Oct-14 4-Apr-15 
20:11:15 20:11:16 03:14:15 


“Lucinda” 


行 ID 
让 


10-Oct-14 
20351T17 


“341 N. Main St “Portland” 


图 9.1 列 族 数据 库 的 行 可 以 划分 为 多 个 列 族 。 列 族 是 由 相互 联系 的 列 组 成 的 ， 数 据 值 会 依照 行 ID、 列 名 及 时 间 戳 来 定位 


在 数据 结构 的 定义 方面 ，BigTable 采 取 了 折 中 的 做 法 。 数 据 建 模 者 在 实现 数据 库 之 前 必须 把 列 族 定义 好 ， 但 是 开发 者 可 以 
在 某 个 列 族 内 部 动态 地 定义 列 。 使 用 列 族 数据 库 时 ， 不 需要 更 新 与 纲要 (schema) 有 关 的 定义 信息 。 从 开发 者 的 角度 来 看 ， 列 
族 数据 库 类 似 于 关系 型 表格 ， 列 则 相当 于 键 值 对 。 


9.2“ 列 族 数据 库 与 键 值 数据库 及 文档 数据 库 的 异同 
列 族 数据 库 的 某 些 特征 与 其 他 NoSQL 数 据 库 ， 尤 其 是 键 值 数据 库 及 文档 数据 库 类 似 。 由 于 各 种 NoSQL 数 据 库 都 叶 在 应 对 伟 


统 关系 型 数据 库 不 便 解 决 的 问题 ， 所 以 这 种 相似 性 不 足 为 奇 。 此 外 ， 很 多 NoSQL 数 据 库 也 采用 分 布 式 数据 库 技术 来 满足 可 缩放 
性 以 及 可 用 性 方面 的 需求 。 


9.3 ” 列 族 数 据 库 所 使 用 的 架构 


宽泛 地 说 ， 分 布 式 数据 库 所 使 用 的 架构 可 以 分 为 两 类 : 一 类 是 由 多 种 节点 所 组 成 的 架构 ， 另 一 类 是 由 对 等 (peer-to- 
peer) 节点 所 组 成 的 架构 。 在 由 多 种 节点 所 组 成 的 架构 中 ， 至 少 要 有 两 种 节点 ， 当 然 也 可 以 有 两 种 以 上 的 节点 。 


护 集 群 配置 信息 的 中 心服 务 器 (centralized server) 。 在 由 对 等 节点 所 组 成 的 架构 中 ， 只 有 一 种 节点 。 例 如 ，Cassandra 就 只 
有 一 种 节点 。 对 于 这 种 架构 来 说 ， 其 中 的 每 个 节点 都 必须 能 够 处 理 集群 所 需 运 行 的 服务 和 任务 才 行 。 


9.4” 列 族 数 据 库 的 适用 场合 


列 族 数据 库 适 合用 在 那 种 需要 部 署 大 规模 数据 库 的 场合 ， 在 那 种 场合 中 所 使 用 的 数据 库 需 要 具备 较 高 的 写 入 性 能 ,并且 要 能 
在 大 量 的 服务 器 及 多 个 数据 中 心 上 面 运作 。 


Cassandra 采 用 支持 提示 移交 机 制 的 对 等 架构 (peer-to-peer architecture， 端 对 端 架构 、 点 对 点 架构 ) ， 这 意味 集群 中 只 
要 有 一 个 节点 能 正常 运行 并 通信 ， 整 个 数据 库 就 可 以 接受 写 入 请 求 。 因 此 ， 像 社交 网 站 等 写 入 操作 较 多 的 应 用 程序 ， 很 适合 使 用 
列 族 数 据 库 来 管理 数据 。 


提示 “如 果 要 开发 的 写 入 密集 型 程序 同时 还 需 执 行 数据 库 事务 ， 那 么 列 族 数据 库 恐 怕 就 不 是 最 佳 方案 了 。 此 时 或 许可 以 考虑 


采用 混合 技术 (hybrid approach) 来 使 用 一 种 支持 ACID 事务 的 数据 库 ， 如 关系 型 数据 库 或 是 FoundationDB 上 这 样 的 键 值 数据 库 。 


列 族 数 据 库 适合 用 在 需要 以 大 量 服务 器 来 应 对 网 络 负载 的 环境 之 中 。 尽 管 它 也 可 以 仅仅 运行 在 单一 节点 上 面 ， 但 为 了 更 好 地 
部 署 、 测 试 及 熟悉 这 套数 据 库 管 理 系统 ， 最 好 还 是 把 它 放 在 多 个 节点 之 中 来 运行 。 列 族 数据 库 一 般 都 是 要 运行 在 很 多 台 服 务 器 上 
面 的 。 如 果 只 需要 一 台 或 几 人 台 服 务 器 就 能 满足 性 能 方面 的 需求 ， 那 么 键 值 数据 库 、 文 档 数据 库 ， 甚 至 关系 型 数据 库 ， 可 能 都 会 比 
列 族 数 据 库 更 为 合适 。 


Cassandra 可 以 部 署 在 多 个 数据 中 心里 面 ， 并 且 能 够 在 这 些 数据 中 心 之 间 进 行 数 据 复制 (replication) 。 如 果 要 求 数据 库 系 
统 必 须 能 在 某 个 数据 中 心 完 全 无 法 运作 的 情况 下 继续 保持 可 用 ， 那 么 可 以 考虑 部 署 Cassandra 数 据 库 。 


如 果 是 因为 看 重 了 数据 模型 的 灵活 性 而 选择 列 族 数据 库 的话 ， 那 么 请 同时 考虑 一 下 键 值 数据 库 和 文档 数据 库 。 在 只 需要 一 台 
或 几 台 服务 器 的 环境 之 中 ， 大 家 或 许 会 发 现 ， 其 实 那 两 种 数据 库 已 经 完全 能 满足 需求 了 。 


[1] FoundationDB. “ACID Claims.” https://foundationdb.com/acid-claims. 


9.5 ”小结 
列 族 数据 库 是 可 缩放 性 较 高 的 一 类 数据 库 。 它 们 人 允许 开发 者 灵活 地 变更 列 族 中 的 各 列 ， 而 且 也 提供 了 高 度 的 可 用 性 ， 在 某 些 
情况 下 ， 甚 至 还 具备 跨越 多 个 数据 中 心 的 可 用 性 。 


接 下 来 的 两 章 将 会 深入 讲解 列 族 数据 库 。 第 10 章 要 描述 一 些 理解 列 族 数据 库 的 建 模 方式 所 需 的 重要 术语 ， 同 时 还 会 讲解 一 
些 与 实现 有 关 的 专用 词汇 。 第 11 章 主要 讲解 数据 建 模 技术 以 及 实现 方面 的 一 些 问 题 ， 开 发 者 在 部 署 构 建 于 列 族 数 据 库 之 上 的 应 
用 程序 时 ， 需 要 了 解 这 些 问题 。 


9.6 复习 


阅 


1. 说 出 至 少 三 项 Google BigTable 的 核心 特性 。 
2.Google BigTable 为 什么 要 使 用 时 间 戳 ? 


3. 说 出 列 族 数据 库 与 键 值 数据 库 之 间 的 一 个 共同 点 。 


4. 说 出 列 族 数 据 库 与 文档 数据 库 之 间 的 一 个 共同 点 。 

5. 说 出 列 族 数 据 库 与 关系 型 数据 库 之 间 的 一 个 共同 点 。 

6.HBase 需 要 使 用 哪些 类 型 的 Hadoop 节 点 ? 

7. 描 述 对 等 架构 ( 端 对 端 架构 ) 的 基本 特征 。 

8.Cassandra 数 据 库 为 什么 要 通过 Gossip 协 议 来 交换 服务 器 状态 信息 ? 
9.Cassandra 数 据 库 所 使 用 的 捅 协议 ， 其 目标 是 什么 ? 


10. 在 什么 情况 下 会 优先 选用 列 族 数 据 库 ， 而 不 是 其 他 类 型 的 NoSQL 数 据 库 ? 


9.7 引用 资料 
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Conference, 2013: http://www.slideshare.net/mongodb/petamongo-a-petabyte-database-for-as-little-as-200 


Chang, Fay, etal. “BigTable: A Distributed Storage System for Struc-tured Data.” OSDI” 06: Seventh 
Symposium on Operating System Design and 


Implementation, Seattle, WA, November, 2006: http://research.google.com/archive/bigtable.html 
FoundationDB. “ACID Claims” : https://foundationdb.com/acid-claims 


Hewitt, Eben.Cassandra: The Definitive Guide.Sebastopol, CA: O’ Reilly Media, Inc., 2010. 


第 10 草 "” 列 族 数据 库 的 术语 


“说 话 就 好 比 弹 琴 ， 弹 的 是 想象 之 琴 。” 
一 一 路 德 维 希 . 维 根 斯 坦 (Ludwig Wittgenstein) 


列 族 数 据 库 的 基本 组 件 
实现 列 族 数据 库 所 用 的 结构 及 相关 流程 


处 理 流 程 及 协议 


在 阅读 与 列 族 数据 库 有 关 的 文档 和 书籍 时 ， 会 看 到 很 多 熟悉 的 术语 。 例 如 ， 列 族 数 据 库 也 经 常会 用 到 列 、 分 区 和 键 空 间 等 说 
法 。 如 果 在 试 着 理解 一 项 新 技术 时 ， 发 现 该 技术 所 用 的 术语 和 现 有 技术 一 样 ， 那 么 只 要 这 两 套 术 语 背 后 的 含义 相似 ， 就 有 可 能 
加 顺畅 地 掌握 这 项 新 技术 。 


本 章 会 描述 列 族 数据 库 专用 的 一 些 词汇 及 术语 。 这 些 术 语 的 定义 是 专门 针对 列 族 数据 库 而 下 的 ， 它 们 并 不 是 崇尚 简约 的 逻辑 
学 家 所 追求 的 那 种 极 简 式 定义 (minimalist definition) 。 笔 者 之 所 以 给 出 这 些 描述 ， 是 为 了 满足 数据 库 设 计 者 和 软件 开发 者 的 
使 用 需求 ， 并 且 想 使 大 家 更 好 地 了 解 列 族 数据 库 与 其 他 数据 库 之 间 的 区 别 。 


本 章 接 下 来 的 这 一 节 讲 述 使 用 Cassandra 及 HBase 等 列 族 数据 库 时 应 该 理解 的 一 些 组 件 。 列 族 数 据 库 程序 的 开发 者 经 常 要 和 


这 些 组 件 打 交道 。 


之 后 的 两 节 谈 论 列 族 数 据 库 在 实现 层面 的 一 些 术 语 。 那 些 术语 大 多 都 和 数据 结构 及 进程 有 关 ， 虽 然 数据 库 程 序 的 开发 者 并 不 
会 明显 地 察觉 到 那些 机 制 ， 但 是 它们 对 数据 库 的 效率 是 至 关 重 要 的 。 


注解 ”对 于 仅仅 想 要 使 用 列 族 数据 库 的 人 来 说 ， 并 不 需要 详细 了 解 分 区 机 制 的 工作 原理 ， 然 而 这 些 知识 对 理解 列 族 数据 库 还 
是 有 很 大 帮助 的 。 在 阅读 与 实现 有 关 的 10.2 节 时 ， 若 是 感觉 某 些 术语 太 过 难 懂 或 是 太 过 底层 〈 如 Bloom 过 滤器 及 Gossip 协 议 ) ， 
则 可 以 略 读 那 些 内 容 。 


10.1 列 族 数据 库 的 基本 组 件 

列 族 数 据 库 的 基本 组 件 指 的 是 开发 者 使 用 最 频繁 的 一 些 数据 结构 。 这 些 数据 结构 需要 由 开发 者 来 明确 地 定义 ， 例 如 ， 列 就 需 
要 有 明确 的 界定 。 本 节 将 会 讲解 下 面 4 个 术语 : 

` 键 空间 

` 行 键 

. 列 

* 列 族 


有 了 这 些 基 本 组 件 ， 就 可 以 开始 构建 列 族 数据 库 了 。 


10.2 ”实现 列 族 数 据 库 所 用 的 结构 及 相关 流程 


列 族 数据 库 是 比较 复杂 的 。 为 了 确保 数据 库 正常 运作 ， 它 必须 持续 运行 许多 条 处 理 流 程 (process) [1]。 此 外 ， 它 还 要 用 一 
些 复杂 的 数据 结构 来 提升 自身 的 性 能 ， 假 如 改 用 简单 的 数据 结构 来 实现 ， 那 么 数据 库 的 性 能 就 不 会 这 么 高 了 。 


[1 这 里 的 process 一 词 并 不 完全 等 同 于 操作 系统 和 程序 开发 中 所 说 的 程序 进程 ， 而 是 还 包含 一 种 处 理工 序 的 意思 在 里 面 。 
者 注 


译 


10.3 ”处 理 流程 及 协议 


除了 上 面 讲 到 的 那些 数据 结构 之 外 ， 列 族 数据 库 若 想 正 常 运作 还 需要 依赖 几 个 重要 的 后 台 处 理 流程 。 


10.4 小 结 


列 族 数 据 库 与 关系 型 数据 库 的 某 些 术语 虽然 在 名 称 上 相同 ， 但 在 用 法 上 却 有 着 重要 的 区 别 。 比 方 说 ， 关 系 型 数据 库 的 列 和 列 
族 数 据 库 的 列 都 有 一 些 相似 的 特征 ， 然 而 它们 在 实现 层面 上 却 各 有 不 同 。 如 果 要 向 列 族 数 据 库 中 添加 新 列 ， 那 么 只 需 用 程序 代码 
直接 操作 即 可 完成 ， 但 若 想 给 关系 型 数据 库 添加 新 列 ， 则 必须 先 修改 数据 库 的 纲要 (schema) 才 行 。 使 用 列 族 数 据 库 时 ， 一 定 
要 记 住 这 些 同名 术语 在 意义 上 的 重要 区 别 。 


列 族 数据 库 的 基本 逻辑 组 件 是 名 称 空间 (namespace) [1]、 列 族 、 列 以 及 行 键 。 无 论 使 用 哪 种 列 族 数据 库 ， 都 应 该 熟悉 这 
些 组 件 。 


要 想 理解 列 族 数据 库 的 物理 实现 方式 ， 至 少 应 该 知道 分 区 和 集群 这 两 个 概念 。 而 为 了 合理 地 满足 可 用 性 及 效率 方面 的 需求 ， 
应 该 理解 提交 日 志 的 用 途 ， 并 且 要 学 会 如 何在 配置 副本 数量 与 一 致 性 级 别 等 参数 时 进行 权衡 。 对 于 想 要 深入 研究 细节 问题 的 读者 
来 说 ， 还 需要 理解 Bloom 过 滤器 、 捅 、Gossip 协 议 以 及 提示 移交 机 制 等 概念 。 


四 也 就 是 10.1.1 节 所 说 的 键 空 间 (keyspace) 。 译 者 注 


10.5 ”复习 题 


1. 什 么 是 键 空间 ? 在 关系 型 数据 库 中 ， 与 键 空间 类 似 的 数据 结构 叫 什么 ? 

2. 列 族 数据 库 的 列 与 关系 型 数据 库 的 列 有 何 区 别 ? 

3. 什 么 样 的 列 应 该 归 入 同一 个 列 族 里 面 ? 什么 样 的 列 应 该 放 在 不 同 的 列 族 之 中 ? 
4. 分 区 在 列 族 数 据 库 中 的 用 途 是 什么 ? 

5. 使 用 提交 日 志 可 以 获得 哪些 性 能 优势 ? 

6. 使 用 Bloom 过 滤器 的 好 处 是 什么 ? 

7. 设 置 一 致 性 级 别 的 时 候 ， 应 该 考虑 哪些 因素 ? 

8. 设 置 复制 策略 (replication strategy) 的 时 候 ， 应 该 考虑 哪些 因素 ? 

9. 反 炳 流程 中 为 什么 要 用 到 | 哈 希 树 ? 

10. 使 用 Gossip 协 议 来 交换 信息 的 好 处 是 什么 ? 


11. 提 示 移 交 机 制 怎 样 改善 写 入 操作 的 可 用 性 ? 


10.6 引用 资料 


Apache Cassandra Glossary: http://io.typepad.com/glossary.html 

Apache HBase Reference Guide: http://hbase.apache.org/book.html 

Bloom Filterl!]: http://en.wikipedia.org/wiki/Bloom filter 

Hewitt，Eben.Cassandra: The Definitive Guide.Sebastopol, CA: O” Reilly Media, Inc., 2010. 


Merkle Tree: http://en.wikipedia.org/wiki/Merkle tree 


[1] 中 文 页 面 是 https://xh.wikipedia.org/wiki/ 布 隆 过 滤器 。 译 者 注 


第 11 草 "” 列 族 数据 库 的 设计 


“好 的 设计 师 要 依靠 经 验 、 续 密 而 有 逮 辑 的 思考 方式 ， 以 及 对 准确 度 的 执着 追求 来 工作 ， 没 有 其 他 秘诀 。” 
一 一 尼克 劳 斯 维尔 特 (Niklaus Wirth) 


计算 机 科学 家 


与 设计 数据 表格 有 关 的 建议 
与 编制 索引 有 关 的 建议 

应 对 大 数据 的 工具 

案例 研究 : 客户 数据 分 析 


列 族 数据 库 的 设计 是 由 用 户 来 驱动 的 。 这 话 起 初 听 起 来 好 像 不 太 对 。 设 计 应 该 由 对 数据 库 管理 系统 有 经 验 的 设计 师 来 主导 才 
对 啊 。 没 错 ， 但 设计 师 也 得 听 用 户 的 ， 所 以 最 终 还 是 由 用 户 来 驱动 的 。 数 据 库 应 用 程序 所 要 应 对 的 那些 问题 是 由 用 户 来 提出 的 。 
用 户 可 能 会 向 应 用 程序 提出 下 面 这 样 的 问题 : 


西北 地 区 昨天 共有 多 少 新 订单 ? 

“ 茶 位 顾客 上 次 下 订单 是 在 什么 时 候 ? 

有 多 少 订 单 正 在 送 往 伦敦 的 途中 ? 

. 俄亥俄 货 仓 中 的 哪些 货品 ， 其 数量 低 于 最 低 存货 量 ? 

只 有 在 明确 了 这 样 的 问题 之 后 ， 才 能 开始 设计 列 族 数据 库 。 与 其 他 NoSQL 数 据 库 一 样 ， 设 计 也 是 从 查询 入 手 的 。 
通过 这 些 查 询 请 求 ， 可 以 看 出 一 些 对 列 族 数 据 库 的 设计 非常 有 用 的 信息 ， 其 中 包括 : 


. 实体 


` 实体 属性 
. 查询 标准 
* 派生 值 


实体 可 以 表示 具体 的 事物 (如 客户 及 产品 ) ， 也 可 以 表示 抽象 的 概念 (如 服务 级 别 协 议 (service level agreement) [或 
启用 积分 的 记录 (credit score history) ) 。 列 族 数 据 库 用 数据 行 来 对 实体 进行 建 模 。 一 个 数据 行 应 该 对 应 于 一 个 实体 。 数 据 行 
之 间 可 以 通过 行 键 来 区 分 身份 。 


实体 的 属性 用 列 来 建 模 。 查 询 请 求 会 通过 相关 的 列 名 来 指定 筛选 实体 时 所 用 的 标准 ， 也 会 通过 列 名 来 指定 需要 返回 的 那 一 系 
列 属性 。 


设计 者 可 以 用 查询 请 求 中 的 筛选 标准 来 决定 如 何 通过 表格 及 分 区 更 好 地 安排 数据 。 比 方 说 ， 如 果 某 些 查询 请 求 需要 选 出 下 单 
时 间 位 于 某 两 个 日 期 之 间 的 订单 ， 那 就 可 以 设计 一 张 以 日 期 顺序 来 排列 数据 行 的 表格 ， 并 且 用 这 张 表格 来 满足 这 些 查询 请 求 。 


设计 者 可 以 依照 查询 请 求 所 要 返回 的 那 一 系列 属性 来 决定 应 该 把 哪些 属性 划分 到 同一 个 列 族 之 中 。 最 有 效 的 列 族 划分 方式 是 
把 经 常 需要 同时 用 到 的 那些 列 保存 在 同一 个 列 族 里 面 。 


提示 “如果 设计 者 看 到 查询 请 求 里 面 出 现 了 一 些 派生 值 ， 比 方 说 昨天 所 下 订单 的 总 量 或 每 张 订 单 平均 是 多 少 美元 等 ， 那 就 表 
明 我 们 可 能 需要 再 添加 一 些 属性 来 保存 这 些 派 生 值 。 


与 实体 、 属 性 、 查 询 标准 及 派生 值 有 关 的 信息 是 设计 列 族 数 据 库 时 的 切入 点 。 设 计 者 可 以 从 这 些 信息 入 手 ， 利 用 列 族 数 据 库 
的 特性 来 打造 最 合适 的 实现 方案 。 


注解 ”起 初学 习 列 族 数据 库 的 时 候 ， 可 以 把 它 与 关系 型 数据 库 相 对 比 ， 以 便 更 好 地 理解 这 种 数据 库 。 但 是 当 学 到 了 足够 的 基 
础 知识 ， 并 且 可 以 开始 设计 列 族 数据 库 应 用 程序 之 后 ， 就 应 该 把 关系 型 数据 库 抛 开 了 。 


列 族 数 据 库 实现 起 来 和 天 系 型 数据 库 不 同 。 如 果 把 它们 两 个 当成 同一 种 数据 库 来 设计 ， 那 么 设计 出 的 方案 可 能 会 比较 糟糕 。 
大 家 一 定 要 记 住 以 下 几 点 : 


* 列 族 数据 库 应 该 实现 成 稀 玖 且 多 维 的 映射 图 (map) 。 

* 在 列 族 数据 库 中 ， 各 个 数据 行 所 拥有 的 列 是 可 以 有 所 不 同 的 。 

* 列 族 数据 库 的 列 是 可 以 动态 添加 的 。 

* 列 族 数 据 库 不 需要 执行 连接 操作 ， 我 们 会 对 数据 模型 执行 去 规范 化 处 理 。 


列 族 数 据 库 的 这 些 特 征 会 影响 下 面 各 节 所 给 出 的 设计 建议 。 笔 者 会 针对 列 族 数据 库 的 主要 逻辑 组 件 给 出 一 些 建议 。 但 是 在 讲 
到 键 空间 时 ， 则 只 会 提醒 大 家 为 每 个 应 用 程序 都 分 配 单独 的 键 空间 就 可 以 了 ， 除 此 之 外 不 会 给 出 太 多 建议 。 这 样 做 的 原因 在 于 ， 
不 同 的 应 用 程序 要 应 对 不 同形 式 的 查询 请 求 ， 而 前 面 讲 过 ， 列 族 数据 库 的 设计 正 应 该 由 这 些 查询 请 求 来 决定 才 对 。 


注解 HBase 与 Cassandra 是 两 种 较为 流行 的 列 族 数据 库 。 它 们 有 很 多 特性 都 是 相似 的 ， 但 也 有 一 些 方面 彼此 不 同 。 例 
如 ，HBase 采 用 时 间 惟 来 记录 列 值 的 多 个 版 本 。 而 Cassandra 虽 然 也 采用 时 间 惟 ,但 却 不 是 为 了 保存 多 个 版 本 的 数值 ， 而 是 为 了 解 
决 数值 之 间 的 冲突 。 甚 至 对 于 同一 个 列 族 数 据 库 产 品 来 说 ， 不 同 版 本 之 间 的 实现 细节 也 会 有 所 区 别 。 有 些 论断 对 于 早 前 版 本 的 
Cassandta 来 说 是 成 立 的 ， 但 是 对 于 新 版 的 Cassandta 则 未 必 有 成立 。 


[1 是 指 服务 提供 者 与 客户 之 间 就 服务 品质 所 达成 的 契约 。 


译 者 注 


11.1 与 设计 数据 表格 有 关 的 建议 


设计 列 族 数 据 库 时 ， 首 先 要 决定 的 一 个 问题 就 是 如 何 设计 纲要 之 中 的 表格 。 设 计数 据 表 时 ， 应 该 遵循 下 面 几 条 建议 : 
` 用 去 规范 化 来 代替 连接 。 

* 善 用 无 值 的 列 。 

* 同时 在 列 名 和 列 值 之 中 存储 数据 。 

` 用 一 个 数据 行 来 为 一 个 实体 建 模 。 

设计 行 键 时 不 要 将 大 量 操作 分 配给 少数 服务 器 。 

维护 适当 数量 的 列 值 版 本 。 

不 要 在 列 值 中 使 用 复杂 的 数据 结构 。 


请 注意 ， 某 些 建议 未 必 对 每 一 种 列 族 数 据 库 系统 都 适用 ， 如 第 6 条 ( 列 值 的 版 本 数量 要 适当 ) 就 是 如 此 。 


11.2 “与 编制 索 3| 有 关 的 建议 


索引 使 得 大 家 能 够 在 表格 之 中 快速 查找 数据 。 比 方 阅 ， 如 果 要 搜寻 位 于 某 个 州 (state) 的 客户 ， 那 么 可 以 采用 下 面 这 条 语 
句 (该 语句 采用 CQL 语 法 来 编写 ，CQL 是 Cassandra 的 查询 语言 ) 来 实现 。 


SELECTI 

fname, lname 
FROM 

customers 
WHERE 

state = 'OR'， 


数据 库 索 引 消 数 与 书籍 的 索引 类 似 。 我 们 可 以 在 某 本 书 的 索引 中 搜寻 某 个 词汇 或 术语 ， 以 查 出 书 中 提 到 该 词 的 那些 页 面 。 与 
之 类 似 ,我 们 也 可 以 在 列 族 数 据 库 的 索引 中 搜寻 某 个 列 值 ， 如 州 名 的 缩写 ， 以 查 出 引用 这 个 列 值 的 那些 数据 行 。 在 很 多 情况 下 ， 
通过 索引 来 获取 数据 要 比 不 使 用 索引 的 时 候 更 快 一 些 。 


大 家 应 该 分 清 两 种 类 型 的 索引 ， 一 种 是 主要 索引 (primary index， 主 索引 ) ， 另 一 种 是 辅助 索引 (secondary index， 次 
索引 ) 。 主 索引 是 根据 表格 的 行 键 来 编订 的 。 辅 助 索 引 则 是 根据 一 个 或 多 个 列 值 来 制作 的 。 数据库 系统 及 应 用 程序 都 可 以 创建 并 
管理 辅助 索引 。 虽 说 未 必 每 一 种 列 族 数 据 库 都 会 自动 管理 辅助 索引 ， 但 可 以 手工 创建 及 管理 相关 的 表格 ， 并 把 这 些 表格 当成 列 族 
数据 库 的 辅助 索引 来 使 用 。 


11.3 ”应 对 大 数据 的 工具 
各 种 NoSQL 数 据 库 ， 如 键 值 数据 库 、 文 档 数 据 库 和 图 数据 库 ， 都 适用 于 很 多 应 用 程序 ， 这 些 程序 所 要 处 理 的 数据 的 规模 也 
各 不 相同 。 虽 说 列 族 数 据 库 可 以 用 来 处 理 较 小 的 数据 集 ， 但 这 种 小 规模 的 数据 还 是 改 用 其 他 几 类 NoSQL 数 据 库 来 做 更 好 一 些 。 
注释 ”如 果 你 发 现 自己 正在 使 用 Apache HBase 或 Cassandra 这 两 种 流行 的 列 族 数据 库 ， 那 么 你 要 处 理 的 可 能 就 是 大 数据 问题 。 


大 数据 (Big Data) 这 个 词 并 没有 精准 的 定义 。 一 般 来 说 ， 无 法 由 关系 型 数据 库 来 有 效 地 存储 并 加 以 分 析 的 巨 量 数据 可 称 
为 大 数据 。 从 事 互联 网 搜索 业务 的 一 些 公司 ， 比 如 Yahoo! (雅虎 ) ， 很 早 就 发 现 关系 型 数据 库 无 法 满足 网 络 搜索 服务 的 需 
求 。 于 是 ， 这 些 公司 创建 了 Hadoop 平 台 ， 该 平台 现在 是 Apache 名 下 的 一 个 项 目 ， 有 很 多 开发 者 参与 该 项 目 。 


更 为 正规 且 广 泛 使 用 的 一 种 定义 是 由 Gartner 研 究 集团 (Gartner research group) 所 给 出 的 [1。Gartner 把 大 数据 定义 为 
高 速 、 巨 量 上 且 (或 ) 多 变 的 数据 。 所 谓 高 速 是 指数 据 的 生成 或 变化 速度 很 快 。 所 谓 巨 量 是 指数 据 的 规模 很 大 。 所 谓 多 变 是 指数 据 
类 型 的 范围 或 数据 中 所 含 信息 的 范围 非常 广泛 。 


与 天 气 、 交 通 、 人 口 及 手机 使 用 情况 等 方面 相关 的 数据 ， 显 然 满 足 高 速 和 巨 量 这 两 个 标准 ， 因 为 这 些 数 据 都 是 根据 不 同 的 实 
体 以 各 种 形式 迅速 产生 出 来 的 。 列 族 数 据 库 非常 适合 用 来 管理 这 一 类 数据 。 


数据 库 是 用 来 存放 并 获取 数据 的 ， 同 时 它 也 能 高 效 地 完成 相应 的 操作 。 然 而 ， 还 有 一 些 与 之 相关 的 任务 会 对 数据 库 起 到 支援 
作用 ， 一 般 来 说 ， 若 要 充分 发 挥 出 数据 库 的 效用 ， 则 需 将 这 些 任务 执行 好 。 它 们 包括 : 


- 革 取 、 转 置 并 加 载 数 据 〔 简 称 ETL) 
-分析 数据 
监控 数据 库 性 能 


当年 ， 为 了 应 对 新 兴 的 需求 ， 一 些 乐于 创新 的 设计 者 和 开发 者 创建 了 NoSQL 数 据 库 。 而 现在 ,为 了 支持 大 数据 服务 ， 也 有 
很 多 开发 者 和 开发 社团 创建 了 执行 相关 操作 所 需 的 工具 。 


而 参见 Laney Douglas 所 著 的 《The Importance of “Big Data” :A Defi nition.》 一 文 ， 网 址 是 


http://www.gartnet.com/res1d=2057415。 


11.4 小 结 


列 族 数据 库 是 设计 给 大 批量 的 数据 使 用 的 ， 其 灵活 性 体现 在 数据 的 类 型 以 及 保存 数据 所 用 的 结构 上 面 。 虽 说 关系 型 数据 库 与 
列 族 数据 库 都 使 用 很 多 相同 的 术语 ， 但 这 只 是 表面 上 相似 而 已 。 列 族 数据 库 会 通过 高 效 的 数据 结构 来 优化 它 对 存储 空间 的 利用 方 
式 ， 这 种 数据 库 很 适合 用 来 存放 稀疏 且 多 维 的 数据 集 。 


为 了 充分 发 挥 出 列 族 数 据 库 的 优势 ， 一 定 要 顺应 这 种 数据 库 在 实现 层面 所 用 的 那些 数据 结构 和 处 理 流程 ， 而 不 是 与 之 相 抗 
拒 。 本 章 给 出 了 与 表格 、 列 族 及 列 有 关 的 一 些 设计 建议 ， 供 大 家 参考 。 


在 讨论 索引 编制 的 过 程 中 ， 可 以 看 出 开发 者 与 设计 者 在 决定 是 否 需要 编制 索引 时 ， 考 虑 的 问题 其 实 是 时 间 和 空间 究竟 哪 一 个 
更 重要 。 如 果 时 间 更 重要 ， 也 就 是 想 要 尽量 缩短 响应 时 间 的 话 ， 那 么 就 应 该 使 用 索引 。 列 族 数 据 库 会 自动 根据 行 键 来 编制 索引 。 
如 果 还 需要 编制 辅助 索引 ， 但 所 用 的 列 族 数据 库 又 不 支持 自动 的 辅助 索引 ， 那 么 可 以 用 表格 来 手工 实现 。 这 种 做 法 与 使 用 数据 库 


自动 编制 的 辅助 索 引 相 比 ， 昌 然 有 某 些 缺点 ， 但 是 由 于 它 通常 能 带 来 更 多 的 好 处 ， 所 以 也 是 值得 考虑 的 。 


如 果 正 在 使 用 列 族 数 据 库 ， 那 么 要 解决 的 可 能 就 是 大 数据 问题 了 ， 可 以 借助 一 些 专门 的 工具 来 更 好 地 对 大 数据 及 大 数据 系统 
进行 移动 、 处 理 及 管理 。 


11.5 “案例 研究 : 客户 数据 分 析 

第 1 章 提 到 了 名 为 TransGlobal Transport and Shipping (TGTS) 的 一 家 虚构 公司 ， 该 公司 为 各 种 商业 机 构 协调 货物 的 运 
输 事宜 。 第 8 章 讨 论 了 这 家 货运 公司 应 该 如 何 用 文档 数据 库 来 管理 货物 清单 。 

在 接 下 来 的 这 个 案例 研究 中 ， 将 利用 本 章 所 学 的 概念 讨论 TGTS 公 司 如 何 使 用 列 族 数据 库 来 分 析 与 客户 和 运输 行为 有 关 的 大 
量 数据 。 
掌握 用 户 的 需求 


TGTS 公 司 的 分 析 师 想 要 掌握 客户 的 运输 行为 是 如 何 变化 的 。 分 析 师 做 了 一 些 假设 ， 用 来 解释 为 什么 有 的 客户 货运 量 比 较 
大 ， 有 的 客户 货运 量 比较 小 。 现 在 ， 他 们 需要 用 很 多 不 同 种 类 的 数据 来 验证 这 些 假设 ， 这 些 数 据 包括 : 


自从 公司 设立 以 来 ， 每 位 客户 所 下 的 全 部 货运 订单 。 

. 客户 记录 中 的 所 有 细节 信息 。 

: 与 客户 所 在 的 行业 及 市 场 相关 的 新 闻 报 道 、 产 业 资 讯 以 及 其 他 文字 信息 。 
. 与 运输 行业 有 关 的 历史 数据 ， 尤 其 是 财务 数据 库 里 的 数据 。 


由 于 数据 的 种 类 繁多 且 数 量 巨大 ， 所 以 这 个 项 目 属于 大 数据 项 目 。 于 是 ， 开 发 团队 决定 使 用 列 族 数 据 库 来 研发 该 项 目 。 接 下 
来 ， 他 们 要 关注 的 是 具体 需求 。 


在 项 目的 第 一 个 阶段 中 ， 分 析 师 想 要 通过 统计 和 机 器 学 习 技 术 来 更 好 地 了 解 这 些 数 据 。 这 一 阶段 所 要 解决 的 问题 : 有 没有 哪 
些 相似 的 客户 或 相似 的 订单 可 以 归 为 一 组 ”不 同 的 客户 所 下 的 订单 ， 其 平均 金额 有 什么 区 别 ?” 在 一 年 之 中 的 不 同时 间 点 上 ， 客 户 
所 下 订单 的 平均 金额 有 什么 变化 ?此 外 ， 分 析 师 还 需要 针对 具体 的 客户 和 运输 路 线 生 成 报表 。 为 了 生成 这 些 报表 ， 需 要 查询 下 列 


内 容 : 
某 位 客户 下 了 哪些 订单 ? 
“ 茶 张 订单 中 包含 哪些 订单 项 ? 
: 在 给 定 的 时 间 段 内 ， 某 条 运输 路 线 上 面 有 多 少 只 货船 ? 
. 在 给 定 的 时 间 段 内 ， 身 处 某 个 特定 行业 的 那些 客户 进行 了 多 少 次 托运 ? 
数据 库 的 设计 者 现在 已 经 知道 他 们 应 该 在 项 目的 第 一 阶段 为 哪些 实体 进行 建 模 了 。 列 族 数据 库 中 需要 包含 下 列表 格 : 
“Customers (客户 ) 


. Orders (订单 ) 


. Ships (货船 ) 
: Routes (航线 ) 


Customers 表 格 里 面 有 一 个 列 族 ， 其 中 包含 客户 的 公司 名 称 、 地 址 、 联 系 方式 、 所 在 行业 以 及 所 面 对 的 市 场 类 型 等 数据 。 
Orders 表 格 里 面 含有 与 订单 中 的 订单 项 有 关 的 细节 信息 ， 如 名 称 、 摘 述 及 重量 等 。ships 表 格 中 含有 与 货船 的 特征 有 关 的 信息 ， 
如 容量 、 船 龄 、 维 修 历史 等 。 Routes 表 格 里 面 会 存放 一 些 与 航线 有 关 的 描述 信息 ， 以 及 该 航线 的 详细 地 理 信 息 。 


除了 需要 给 上 面 那 四 个 主要 的 实体 创建 表格 之 外 ， 设 计 者 还 需要 为 下 面 三 套数 据 创 建 相 关 的 表格 ， 以 便 将 其 当 作 索引 来 使 
用 : 


.Orders by customet (每 一 位 客户 所 下 的 全 部 订单 ) 
Shipped items by ordet (每 一 张 订单 中 的 全 部 订单 项 ) 
* Ships by route (每 一 条 航线 中 的 全 部 货船 ) 


创建 好 这 些 表格 之 后 ， 就 可 以 在 处 理 查 询 请 求 的 时 候 把 它们 当 作 索引 来 使 用 了 ， 这 样 做 能 够 迅速 地 找到 待 查 的 数据 。 尽 管 基 
础 表格 与 索引 表格 之 间 在 数据 加 载 过 程 中 会 有 不 同步 的 现象 ， 但 由 于 是 成 批 地 加 载 数据 ， 而 且 是 在 加 载 好 数据 之 后 才 去 生成 报表 
的 ， 因 此 这 种 不 同步 现象 并 不 会 给 程序 带 来 问题 。 


此 外 ， 因 为 某 些 查询 请 求 中 会 提 到 某 个 时 间 段 ， 所 以 设计 者 决定 为 相关 的 列 编制 自动 索引 。 由 于 这 些 索引 是 由 数据 库 负 责 管 
理 的 ， 因 此 开发 者 与 用 户 无 需 使 用 专门 的 索引 表 即 可 发 出 相关 的 查询 请 求 ， 并 按照 时 间 对 其 进行 过 滤 。 


11.6 复习 题 


1. 在 设计 列 族 数据 库 的 时 候 ， 终 端 用 户 的 查询 请 求 扮演 着 何 种 角色 ? 
2. 使 用 列 族 数 据 库 的 时 候 ， 怎 样 才 能 避免 执行 连接 操作 ? 

3. 为 什么 说 实体 应 该 建 模 成 单独 的 数据 行 ? 

4. 什 么 叫做 热点 现象 (hotspotting) ， 为 什么 应 该 避免 这 种 现象 ? 
5. 把 复杂 的 数据 结构 用 作 列 值 会 有 哪些 缺点 ? 

6. 说 出 三 种 不 应 该 使 用 辅助 索引 的 情形 。 

7. 手 工 管理 索引 表 会 有 哪些 缺点 ? 

8. 统 计 学 可 以 分 为 哪 两 种 ?它们 各 自 的 用 途 是 什么 ? 

9. 机 器 学 习 可 以 分 为 哪 两 种 ”它们 各 自 的 用 途 是 什么 ? 


10.Spark 与 MapReduce 有 什么 区 别 ? 
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第 12 章 ”图 数据 库 简 介 


“他 们 跟 我 说 计算 机 只 能 做 算术 。” 
一 一 葛 丽 丝 . 霍 善 (Grace Hoppet) 


计算 机 科学 家 、 美 国 海军 少将 


本 章 内 容 

图 数据 库 的 设计 准则 

用 图 对 网 络 关系 进行 建 模 
图 数据 库 的 优势 


本 章 讲解 一 种 专门 的 数据 库 类 型 ， 图 数据 库 (graph database) 。 图 数据 库 是 基于 图 论 (graph theory) 而 构建 的 ， 图 论 
是 数学 的 一 个 分 支 。 数 学 中 的 图 论 技 术 适 合用 来 分 析 实 体 之 间 的 联系 及 链接 。 稍 后 就 会 看 到 ， 这 些 技术 对 许多 数据 管理 工作 来 说 
是 非常 有 用 的 。 


12.1 什么 是 图 

图 是 一 种 数学 对 象 ， 它 由 顶点 和 边 两 部 分 组 成 。 顶 点 (vertex) 有 时 也 称 为 节点 (node) ， 但 是 本 章 不 使 用 这 个 称呼 
为 它 可 能 会 与 集群 中 的 服务 器 相 混 淆 ， 后 者 也 叫做 节点 。 

顶点 用 来 表示 各 种 事物 。 名 式 各 样 的 东西 都 可 以 表示 成 顶点 ， 例 如: 

. 城市 

. 公司 中 的 雇员 

. 蛋白 质 

. 电路 

. 供水 管道 的 枢纽 

. 生态 系统 中 的 生物 

. 火车 站 


上 面 这 些 事物 都 有 个 共同 点 ， 就 是 可 以 和 其 他 事物 建立 联系 ， 与 之 相连 的 那些 事物 通常 也 是 同类 。 例 如 ， 城 市 与 城市 之 间 有 
道路 相通 ; 公司 的 雇员 之 间 会 相互 协作 ; 一 种 蛋白 质 可 以 与 另 一 种 蛋白 质 发 生 交 互 作用 ; 一 块 电路 可 以 与 男 一 块 电路 相连 ; 供水 
管道 的 一 个 枢纽 可 以 与 另 一 个 枢纽 相连 ; 生态 系统 中 的 生物 会 捕食 其 他 生物 ， 同 时 也 是 另 一 些 生 物 的 猎物 ; 火车 站 与 火车 站 之 间 
有 铁路 相连 。 


实体 之 间 的 联系 或 链接 用 边 (edge) 来 表示 。 某 些 关 系 可 能 比较 明显 ， 如 城市 之 间 的 道路 或 铁路 ， 而 另外 一 些 关 系 则 不 那 
么 直 白 ， 如 蛋白 质 之 间 的 交互 作用 关系 ， 以 及 生态 系统 中 各 个 生物 之 间 的 关系 。 由 于 顶点 和 边 是 一 套 灵 活 的 结构 ， 因 此 事物 之 间 
的 联系 无 论 是 具体 还 是 抽象 都 非常 适合 用 这 套 结构 来 建 模 。 


12.1 演 示 了 由 两 个 顶点 和 一 条 边 所 构成 的 简单 图 。 


| 


图 12.1 由 两 个 顶点 和 一 条 边 所 组 成 的 简单 图 


事物 之 间 的 关系 有 些 是 长 期 的 ， 如 连接 城市 的 道路 ; 也 有 些 是 短期 的 ， 如 某 人 将 病菌 传染 给 另外 一 个 人 。 有 些 联系 是 可 以 观 
察 到 的 ， 而 另外 一 些 则 无 法 目睹 。 比 方 说 ,我 们 可 以 实 实在 在 地 看 到 一 条 供水 管道 ， 但 却 无 法 用 实物 来 表示 公司 的 经 理 和 雇员 之 
间 的 关系 。 


12.2 ”用 图 对 网 络 关系 进行 建 模 
刚 开始 大 家 可 能 会 认为 ， 网 络 关系 必然 很 适合 用 图 来 进行 建 模 。 然 而 细 想 一 下 ， 又 会 觉得 网 络 是 一 种 非常 专门 的 系统 ， 似 笠 


无 法 涵盖 在 可 以 用 图 来 建 模 的 那些 问题 之 中 。 其 实 ， 这 种 担忧 是 没有 必要 的 。 如 果 把 网 络 系统 看 成 由 事物 和 事物 之 间 的 关系 所 构 
成 的 ， 那 么 就 会 发 现 生活 中 到 处 都 是 网 络 。 下 面 举 几 个 例子 来 说 明 很 多 网 络 状 的 系统 都 可 以 用 图 来 进行 建 模 。 


12.3 ”图 数据 库 的 优势 

图 数据 库 会 明确 表示 出 实体 之 间 的 关系 。 它 用 顶点 来 表示 实体 ， 用 边 来 表示 实体 之 间 的 链接 或 联系 。 在 关系 型 数据 库 中 ， 实 
体 之 间 的 联系 不 会 用 链接 来 表示 ， 而 是 会 表示 成 两 个 实体 所 共享 的 一 种 属性 值 ， 这 种 共享 的 属性 值 称 为 键 (key) 。 
124 示 结 

实体 之 间 的 交互 与 关系 极其 普遍 。 图 论 为 构建 图 数据 库 及 分 析 实 体 之 间 的 关系 提供 了 坚实 的 基础 。 通 过 本 章 所 举 的 这 些 例子 


大 家 可 以 看 到 ， 图 论 是 非常 强大 的 ， 可 以 用 来 解决 各 种 各 样 的 问题 。 下 一 章 将 要 介绍 一 些 术 语 ， 并 讲解 一 些 有 助 于 分 析 图 数据 的 


12.5 ”复习 题 


1. 图 模型 的 两 个 组 件 是 什么 ? 

2. 说 出 至 少 三 种 可 以 用 顶点 来 建 模 的 实体 。 

3. 说 出 至 少 三 种 可 以 用 边 来 建 模 的 实体 。 

4. 如 果 用 顶点 来 表示 城市 ， 那 么 该 项 点 可 以 具备 哪些 属性 ? 

5. 如 果 用 边 来 表示 两 座 城市 之 间 的 公路 ， 那 么 这 条 边 可 以 具备 哪些 属性 ? 

6 .流行 病 学 者 用 图 模型 来 表示 疾病 的 传播 情况 。 在 这 样 的 模型 中 ， 顶 点 和 边 分 别 表示 什么 ? 
7. 举 例 说 明 由 部 分 与 整体 之 间 的 关系 (part-of) 所 构成 的 分 层 体系 。 

8. 图 数据 库 是 如 何 避 免 连 接 操作 的 ? 

9. 表 示 用 户 对 帖子 点 赞 的 那 套 模型 与 本 章 所 举 的 其 他 模型 相 比 有 什么 区 别 ? 


10. 什 么 样 的 商务 应 用 程序 需要 在 顶点 之 间 使 用 不 同类 型 的 边 (关系 ) ， 请 举例 说 明 。 


12.6 引用 资料 


Easley, David, and Jon Kleinberg.Networks, Crowds, and Markets: Reasoning About a Highly Connected 
World.Cambridge, England: Cambridge University Press, 2010. 


Robinson, lan, Jim Webber, and Emil Eifrem.Graph Databases.Sebastopol, CA: O’ Reilly Media, Inc., 2013. 


Trudeau, Richard J.Introduction to Graph Theory.Mineola, NY: Courier Dover Publications, 2013. 


第 13 章 ”图 数据 库 的 术语 


“如 果 说 工业 时 代 是 在 构造 器 物 ， 那 么 社交 时 代 则 是 在 把 物 、 人 和 想法 联系 起 来 。” 


Nilofer Merchant 
Rubicon Consulting 公 司 的 创立 者 及 CEO 

本 章 内 容 

图 的 元 素 

图 的 操作 


图 与 节点 的 属性 


图 的 类 型 


图 是 个 较为 抽象 的 概念 。 它 包含 两 个 组 件 : 顶点 及 边 。 这 昌 然 是 一 种 非常 简单 的 模型 ， 但 却 很 适合 用 来 为 许多 领域 内 的 问题 
进行 建 模 ， 正 因为 它 如 此 实用 ， 所 以 图 数据 库 成 了 一 种 主要 的 NoSQL 数 据 库 。 


图 模型 还 有 其 他 一 些 特 征 ， 如 可 以 为 边 设置 权重 ; 而 且 还 支持 一 些 操作 ， 如 能 够 对 两 个 图 取 交 集 。 从 建 模 的 角度 来 看 ， 这 些 
特征 与 操作 为 图 数据 库 的 使 用 者 提供 了 更 为 丰富 的 功能 。 


本 章 的 目标 是 给 与 图 、 图 的 组 件 、 图 的 操作 及 图 的 属性 有 关 的 术语 下 定义 。 图 与 数据 表 及 文档 不 同 ， 它 有 自己 的 一 些 特征 。 
本 章 将 学 习 如 何 利用 这 些 特征 来 创建 高 级 的 抽象 机 制 ， 以 解决 某 些 领域 内 的 相关 问题 ， 这 些 领域 包括 社交 网 络 、 运 输 系 统 以 及 流 
动 网 络 (flow network) 等 。 


13.1 图 的 元 素 


图 模型 的 两 个 基本 构建 块 是 顶点 和 边 。 本 节 就 要 介绍 这 两 个 组 件 。 通 过 顶点 与 边 可 以 构建 出 一 些 高 级 结构 ， 如 路 径 
(path) 。 路 径 是 一 系列 相互 联系 的 边 与 项 点。 此 外 还 要 讲解 环 路 (loop) ， 这 是 一 种 特殊 的 路 径 ， 有 的 时 候 需 要 对 其 进行 特 
别 的 处 理 。 


13.2 ”图 的 操作 
数据 库 常 见 的 操作 是 插入 数据 、 读 取 数 据 、 更 新 数据 以 及 删除 数据 。 图 数据 库 也 支持 这 些 操作 。 此 外 ， 关 系 型 数据 库 、 文 档 
数据 库 及 列 族 数 据 库 通常 还 会 提供 某 些 聚合 操作 ， 如 计数 操作 ， 或 是 针对 多 个 数据 行 中 的 值 所 进行 的 求 和 操作 等 。 


与 那 3 种 数据 库 类 似 ， 图 数据 库 也 有 一 套 自己 所 擅长 的 操作 。 它 尤其 适合 用 来 沿 着 路 径 饥 历 图 中 的 各 顶点 ， 以 及 在 顶点 之 间 
的 关系 中 探查 反复 出 现 的 模式 。 


接 下 来 的 3 个 小 节 分 别 讲解 图 模型 所 特有 的 3 种 重要 操作 : 
图 的 并 集 


. 图 的 交集 


` 图 的 遍历 


13.3 ”图 和 节点 的 属性 


在 对 图 进行 对 比 和 分 析 的 时 候 ， 图 与 节点 的 很 多 属性 都 是 比较 有 用 的 ， 它 们 包括 : 


“ 同 构 性 


这 些 属性 有 助 于 对 图 进行 对 比 ， 也 有 助 于 在 图 中 寻找 特别 值得 关注 的 顶点 。 


13.4 图 的 类 型 


图 可 以 对 许多 领域 中 的 结构 与 流程 进行 建 模 。 有 的 时 候 图 用 来 表示 人 或 城市 等 实体 之 间 的 关系 ， 在 另 一 些 场合 则 可 以 用 来 摘 
述 物料 或 物件 在 系统 中 的 流动 情况 ， 如 城市 供水 系统 中 的 水 流 状 况 ， 或 是 公路 运输 系统 中 的 货车 状况 等 。 本 节 将 会 介绍 几 种 不 同 
类 型 的 图 ， 它 们 能 够 分 别 满足 不 同 的 建 模 需求 。 这 些 图 包括 : 


-无 向 图 和 有 向 图 
“ 流动 网 络 
-二 分 图 


. 多重 图 


:加权 图 


我 们 创建 的 图 可 以 同时 具备 上 述 某 一 种 图 或 某 几 种 图 所 特有 的 性 质 。 比 方 说 ， 可 以 创建 有 向 加 权 图 。 大 家 要 记 住 ， 这 些 类 型 
不 是 彼此 互 斥 的 。 


13.5 小结 
图 是 由 顶点 和 边 这 两 种 简单 的 组 件 构成 的 。 尽 管 这 两 种 组 件 都 非常 简单 ， 但 是 由 它们 所 构成 的 图 模型 却 可 以 具备 众多 的 属性 
及 功能 ， 利 用 这 些 属性 与 功能 可 以 把 很 多 现象 都 建 模 成 图 。 


数学 家 和 计算 机 学 家 研发 出 了 丰富 的 算法 ， 用 来 对 图 模型 进行 操作 。 有 了 这 些 算 法 所 提供 的 能 力 之 后 ， 我 们 可 以 把 许多 领域 
中 的 问题 都 表示 为 图 模型 ， 并 针对 这 些 模 型 来 运用 一 些 通用 的 算法 。 于 是 ， 图 模型 就 成 了 在 NoSQL 数 据 库 中 描述 数据 的 一 种 有 
力 方式 。 


13.6 复习 题 


1. 给 出 顶点 的 定义 。 
2. 给 出 边 的 定义 。 
3. 举 出 至 少 3 个 可 以 用 图 来 建 模 的 领域 。 


4. 举 例 说 明 何 时 应 该 使 用 加 权 图 。 


5. 举 例 说 明 何 时 应 该 使 用 有 向 图 。 

6. 阶 和 尺寸 这 两 个 概念 有 什么 区 别 ? 

7. 有 的 时 候 为 什么 会 把 中 介 性 当成 衡量 瓶颈 程度 的 一 项 指标 ? 
8. 传 染病 学 者 如 何 通过 接近 中 心性 来 判断 疾病 的 传播 情况 ? 
9. 什 么 时 候 应 该 使 用 多 重 图 ? 


10.Dijkstra 算 法 的 用 途 是 什么 ? 


13.7 引用 资料 


Trudeau, Richard J.Introduction to Graph Theory.Mineola, NY: Dover, 1994. 
Wikipedia. “Clique Problem” : http://en.wikipedia.org/wiki/Clique problem 
Wikipedia. “Dijkstra’ s Algorithm” : http://en.wikipedia.org/wiki/Dijkstra%27s algorithm 


Wikipedia. “Flow Network” : http://en.wikipedia.org/wiki/Flow network 


第 14 章 ”图 数据 库 的 设计 


“我 们 总 是 先 提出 一 个 想法 ， 然 后 把 它 转 换 成 一 种 形式 或 结构 。” 


Linda van Deutsen 


导 鲁 大 学 艺术 学 院 的 图 形 设 计 师 


本 章 内 容 


开始 设计 图 模型 


对 图 进行 查询 


图 数据 库 的 设计 技巧 及 注意 事项 
案例 研究 : 优化 运输 路 线 


图 数据 库 的 设计 与 其 他 类 型 数据 库 的 设计 有 一 些 相 似 之 处 ， 但 也 有 一 些 区 别 。 本 章 将 通过 范例 来 详细 讲解 应 该 如 何 设计 实体 
以 及 实体 之 间 的 关系 ， 而 且 还 会 讲解 查询 图 数据 库 所 用 的 两 种 不 同方 式 。 


图 数据 库 具 有 一 些 不 同 寻常 的 特性 。 某 些 算法 在 较 小 的 图 上 面 使 用 是 不 会 花费 太 多 时 间 的 ， 然 而 在 中 到 大 型 的 图 上 面 使 用 却 
会 耗费 极 长 的 时 间 。 


本 章 会 给 出 一 些 技巧 以 帮助 大 家 避 开 (或 是 使 大 家 至 少 能 够 意识 到 ) 设计 中 可 能 出 现 的 某 些 问题 。 最 后 会 进行 一 项 案例 研 
究 ， 来 讨论 运输 路 线 的 优化 。 


14.1 开始 设计 图 模型 


各 种 NoSQL 数 据 库 都 有 一 项 共同 的 特征 ， 它 体现 在 数据 库 的 设计 方式 上 面 ， 也 就 是 说 ， 在 设计 NoSQL 数 据 库 的 模型 时 ,我 
们 都 会 从 用 户 对 数据 的 查询 方式 及 分 析 方 式 来 入 手 。 如 果 可 以 用 实体 及 实体 之 间 的 关系 来 轻松 地 描述 某 个 领域 ， 那 么 该 领域 内 的 
问题 就 非常 适合 用 图 数据 库 来 解决 。 


任何 事物 都 能 够 用 实体 来 表示 ， 无 论 是 蛋白 质 分 子 ， 还 是 庞大 的 星球 ， 都 可 以 描述 成 实体 。 与 图 数据 库 一 样 ， 其 他 类 型 的 
NoSQL 数 据 库 及 关系 型 数据 库 也 很 适合 对 各 种 实体 进行 建 模 。 


然而 ， 由 于 图 数据 库 具备 一 些 专门 的 特征 ， 所 以 它 尤 其 擅长 解决 某 些 领域 内 的 特定 问题 。 
使 用 图 数据 库 的 应 用 程序 会 频繁 地 执行 一 些 涉及 下 列 问 题 的 查询 与 分 析 操 作 : 

. 确定 两 个 实体 之 间 的 关系 。 

“ 确定 与 菜 顶 点 相连 的 各 条 边 所 具备 的 共同 属性 。 

* 针对 与 菜 顶 点 相连 的 各 条 边 所 具备 的 属性 进行 计算 与 汇总 。 

* 针对 某 些 顶点 的 值 进行 计算 与 汇总 。 
下 面 给 出 一 些 范例 ， 来 演示 上 述 几 种 类 型 的 查询 操作 。 

从 顶点 A 到 顶点 B 需 要 跳 转 多 少 次 (也 就 是 从 顶点 A 到 顶点 B 需 要 经 过 几 条 边 ) ? 

* 在 顶点 A 与 顶点 B 之 间 的 各 条 边 中 ， 有 多 少 条 边 的 使 用 成 本 小 于 100? 

" 有 多 少 条 边 与 顶点 A 相连 ? 

“ 顶点 B 的 接近 中 心性 (centrality) 指标 是 多 少 ? 

. 顶点 C 是 不 是 图 中 的 瓶颈 (也 就 是 说 ， 如 果 把 顶点 C 从 图 中 拿 掉 ， 那 么 其 他 顶点 之 间 是 不 是 就 无 法 互 连 了 ) ? 


注解 ”大 家 可 能 已 经 发 现 ， 上 面 这 些 查询 与 使 用 文档 数据 库 及 列 族 数据 库 时 所 进行 的 那 种 查询 是 不 一 样 的 。 这 些 查 询 不 太 注 
重 对 特定 的 属性 进行 第 选 ， 例 如 ， 它 们 不 关注 像 “ 有 多 少 个 顶点 的 边 数 少 于 10” 之 类 的 问题 。 而 且 ， 这 些 查询 也 不 太 强 调 对 菜 一 
组 实体 的 相关 数值 进行 汇总 。 例 如 ， 在 使 用 列 族 数据 库 的 时 候 ， 可 能 会 选 出 东北 地 区 的 客户 上 个 月 所 下 的 全 部 订单 ， 并 对 这 些 订 
单 的 金额 进行 汇总 ， 而 在 使 用 图 数据 库 时 则 很 少 进行 这 样 的 查询 。 尽 管 图 数据 库 也 能 完成 那些 查询 ， 但 它们 无 法 发 挥 出 图 数据 库 
的 灵活 性 ， 也 无 法 利用 图 数据 库 在 查询 方面 的 一 些 新 特性 。 


上 面 这 些 查询 所 用 的 表述 方式 相当 抽象 ， 里 面 所 用 的 那些 术语 都 是 计算 机 学 家 和 数学 家 在 研究 图 模型 时 才 会 用 到 的 。 在 设计 
图 数据 库 的 时 候 ， 从 相关 领域 内 的 具体 问题 入 手 可 能 会 更 好 一 些 。 


14.2 ”对 图 进行 查询 


Perl 编 程 语言 的 口号 是 “一 件 事情 有 很 多 种 做 法 。” 这 人 句 话 对 于 图 模型 的 查询 来 说 同样 适用 。 


Cypher 查 询 语言 是 一 种 与 SQL 相似 的 声明 式 查询 语言 ， 可 以 用 来 构建 查询 请 求 。Cypher 语 言 是 与 Neo4j 图 数据 库 
(neo4j.com) 搭配 起 来 使 用 的 。 开 发 者 也 可 以 选用 Gremlin 语 言 ， 这 是 一 种 图 模型 遍历 语言 ， 能 够 应 对 许多 种 图 数据 库 。 


本 节 的 目标 不 是 解释 这 些 查 询 语言 的 技术 细节 ， 而 是 使 大 家 了 解 一 下 它们 的 工作 原理 ， 并 通过 一 些 范例 来 演示 每 种 语言 的 用 
法 。 


14.3 ”图 数据 库 的 设计 技 15 及 注意 事项 


使 用 图 数据 库 的 应 用 程序 ， 可 以 利用 由 顶点 与 边 所 构成 的 图 模型 来 实现 高 效 的 查询 及 分 析 功 能 。 同 时 要 注意 ， 有 一 些 操作 在 
规模 适中 的 图 模型 上 面 执行 ， 其 运行 时 间 是 可 以 接受 的 ， 然 而 当 图 的 规模 增 大 之 后 ， 这 些 操 作 所 花 的 时 间 就 会 变 得 过 于 漫长 。 


本 节 将 要 讨论 一 些 可 以 优化 图 模型 处 理 效率 的 技巧 。 


人 24 水 结 


图 数据 库 适用 于 很 多 种 应 用 程序 。 图 数据 库 的 设计 者 可 以 从 用 户 需 要 在 数据 库 上 执行 的 查询 出 发 ， 来 确定 待 建 模 的 实体 以 及 
实体 之 间 的 关系 。 大 家 可 以 采用 有 向 边 和 无 向 边 来 表达 不 同类 型 的 关系 。 


图 数据 库 支持 声明 式 的 查询 语言 和 基于 遍历 算法 的 查询 语言 。 设 计 者 应 该 尽量 利用 索引 等 优化 机 制 来 改善 对 图 数据 库 执行 操 
作 时 的 总 体 性 能 。 


14.5 “案例 研究 : 优化 运输 路 线 


TransGlobal Transport and Shipping (TGTS) 是 一 家 虚构 的 运输 公司 ， 该 公司 聘请 另外 一 家 分 析 公 司 来 对 TGTS 的 运输 路 
线 进 行 优 化 。TGTS 的 运 货 人 员 会 把 包裹 从 生产 者 所 在 的 地 点 运 到 配送 中 心 ， 然 后 再 运 到 客户 所 在 的 地 点 。 运 送 包 庄 所 用 的 算法 
比较 简单 ， 他 们 现在 怀疑 这 套 算法 不 是 最 理想 的 算法 。 


14.6 ”复习 题 


1. 把 针对 领域 的 查询 转述 成 针对 图 模型 的 查询 有 什么 好 处 ? 
2.Cypher 语 言 和 Gremlin 语 言 哪 一 个 更 像 SQL? 


3.MATCH 语 句 和 SQL 的 SELECT 语句 有 什么 相似 之 处 ? 


4.Gremlin 语 言 所 使 用 的 inE 和 outE 分 别 代表 什么 ? 

5. 非 对 称 的 关系 应 该 用 哪 种 类 型 的 边 来 表示 ， 是 用 有 向 边 还 是 用 无 向 边 ? 

6. 对 于 图 数据 库 来 说 ， 声 明 式 的 查询 语言 与 基于 遍历 算法 的 查询 语言 有 什么 区 别 ? 
7. 什 么 叫做 深度 优先 搜索 ? 

8. 什 么 叫做 广度 优先 搜索 ? 

9. 对 图 模型 进行 操作 的 时 候 ， 循 环 路 径 为 什么 有 可 能 引发 问题 ? 


10. 处 理 图 模型 的 时 候 ， 为 什么 一 定 要 考虑 可 扩展 性 ? 


14.7 引用 资料 


Gremlin: https://github.com/tinkerpop/gremlin/wiki 

Neo4j Manual: http://neo4j.com/docs/ 

Titan Distributed Graph Database: http://thinkaurelius.github.io/titan/ 

Wikipedia. “Dijkstra’ s Algorithm” : http://en.wikipedia.org/wiki/Dijkstra%27s algorithm 


第 六 部 分 ”选择 适合 应 用 程序 的 数据 库 


第 15 章 ”如 何 选 择 数据 库 


第 15 草 ”如何 选择 数据 库 


“要 了 解 一 个 人 的 处 事 哲 学 ， 不 能 只 听 他 所 说 的 话 ， 更 要 看 他 所 做 的 抉择 。” 
一 一 埃 莉 诺 . 罗斯 福 (Eleanor Roosevelt) 
政治 家 、 活 动 家 、 外 交 家 
本 章 内 容 
选择 NoSQL 数 据 库 


将 NoSQL 数 据 库 与 关系 型 数据 库 结 合 起 来 使 用 


开发 者 今天 所 能 选用 的 优秀 数据 库 要 比 过 去 任何 时 候 都 多 。 关 系 型 数据 库 一 直 以 来 都 能 够 良好 地 应 对 各 种 各 样 的 应 用 程序 。 
由 于 天 系 型 数据 库 非 常 成 功 ， 因 此 它 几乎 完全 取代 了 之 前 流行 的 那些 数据 库 模 型 ， 如 基于 文件 的 数据 库 、 分 层 数据 库 以 及 网 络 数 
据 库 等 。 关 系 型 数据 库 在 很 长 一 段 时 间 内 都 能 够 满足 开发 者 的 需求 ， 直 到 搜索 引擎 等 商用 的 Web 系 统 诞生 之 后 ， 这 种 优势 才 开 
始 有 所 消退 。 


业界 对 Web 数 据 管 理 系统 的 需求 持续 增加 ， 这 使 得 非 关系 型 数据 库 的 设计 思路 又 重 现 生机 。Yahool! 开发 了 
Hadoop，Google 创 建 了 BigTable，Amazon 设 计 并 部 署 了 DynamoDB。 这 些 公司 并 没有 把 它们 的 智慧 财产 封存 起 来 ， 而 是 将 
其 写成 论文 并 加 以 发 表 ， 有 的 时 候 还 会 公布 一 些 代 码 以 供 他 人 使 用 。 于 是 ， 其 他 开发 者 就 以 这 些 设 计 方 案 为 基础 构建 了 一 些 
NoSQL 数 据 库 及 支撑 工具 ， 令 整个 NoSQL 数 据 库 体 系 得 到 了 扩充 。 


数据 管理 项 目的 开发 者 在 开始 做 项 目 之 前 ， 必 须 先 选 定 所 要 使 用 的 数据 库 管理 系统 。 在 今天 这 种 环境 下 ， 主 要 有 下 列 几 类 产 


品 可 供 选 择 : 
. 关系 型 数据 库 ， 如 PostereSQL、MySQL 及 Microsoft SQL Server。 
. 键 值 数据 库 ， 如 Redis、Riak 及 Oracle Berkeley DB 。 
* 文档 数据 库 ， 如 MongoDB、CouchDB 及 CouchBase。 
: 列 族 数据 库 ， 如 Cassandta 及 HBase。 
- 图 数据 库 ， 如 Neo4j 及 Titan。 


注解 ”与 关系 型 数据 库 的 设计 有 关 的 任何 细节 都 不 在 本 书 讨论 范围 之 内 。 如 果 认 为 自己 可 以 用 关系 型 数据 库 来 做 项 目 ， 那 么 
请 参阅 Michael Hetnandez 所 著 的 《Database Design for Mere Mortals: A Hands-On Guide to Relational Database Design》。 


如 果 要 开发 的 项 目 适 合 使 用 NoSQL 数 据 库 ， 那 么 在 选择 具体 的 NoSQL 数 据 库 产品 时 ， 可 以 参考 本 章 所 给 出 的 某 些 建议 。 


15.1 ”选择 NoSQL 数 据 库 


设计 关系 型 数据 库 时 ， 设 计 过 程 是 由 数据 库 的 结构 和 实体 之 间 的 关系 来 主导 的 ， 但 NoSQL 数 据 库 的 设计 过 程 却 不 是 这 样 。 
虽说 设计 NoSQL 数 据 库 的 时 候 也 需要 对 实体 及 其 关系 进行 建 模 , 但 所 更 关心 的 问题 并 不 是 怎样 保留 关系 模型 ， 而 是 如 何 提高 性 
能 。 

关系 型 数据 模型 是 为 了 应 对 实际 的 需要 而 产生 的 ， 也 就 是 为 了 应 对 数据 异常 问题 ， 并 缓解 新 应 用 程序 在 复 用 现 有 数据 库 时 所 
遇 到 的 困难 。NoSQL 数 据 库 的 诞生 同样 是 为 了 应 对 实际 的 需要 ， 尤 其 是 为 了 应 对 传统 数据 库 所 无 法 满足 的 巨 量 读 写 操 作 请 求 。 


为 了 提升 读 取 操作 及 写 入 操作 的 性 能 ，NoSQL 数 据 库 可 能 会 抛弃 关系 型 数据 库 的 某 些 特 性 ， 如 即时 一 致 性 (immediate 
consistency， 立 即 一 致 性 ) 以 及 ACID 事务 等 (但 并 非 所 有 的 NoSQL 数 据 库 都 不 支持 这 些 特性 ) 。 


本 书 一 直 在 用 查询 来 引领 数据 模型 的 设计 。 这 是 因为 查询 请 求 可 以 描述 出 数据 的 使 用 方式 ， 而 且 也 可 以 把 查询 请 求 当 成 一 个 
良好 的 切入 点 ， 来 据 此 审视 各 种 类 型 的 NoSQL 数 据 库 究竟 能 不 能 很 好 地 满足 程序 的 需求 。 除 了 查询 请 求 之 外 ， 在 选择 NoSQL 数 
据 库 的 时 候 还 需要 考虑 其 他 一 些 因素 ， 例 如 : 


. 数据 的 读 取 量 和 写 入 量 


. 是 否 克 许 副本 里 出 现 不 一 致 的 数据 
. 实体 之 间 的 实质 关系 以 及 这 些 实质 关系 对 查询 模式 所 造成 的 影响 
. 对 可 用 性 及 灾难 恢复 能 力 的 需求 

. 对 数据 模型 灵活 度 的 需求 

. 对 延迟 时 间 的 需求 


接 下 来 的 几 个 小 节 会 提供 一 些 用 例 和 筛选 标准 ， 使 大 家 明白 如 何 用 不 同 的 NoSQL 数 据 库 模 型 来 满足 不 同 的 需求 。 


15.2 ”将 NoSQL 数 据 库 与 关系 型 数据 库 结合 起 来 使 用 


NoSQL 数 据 库 与 关系 型 数据 库 之 间 是 互 为 补充 的 。 关 系 型 数据 库 的 许多 特性 可 以 用 来 保证 数据 的 完整 性 ， 并 降低 数据 异常 
的 风险 。 然 而 为 了 实现 这 些 特性 ， 某 些 操 作 的 开销 也 会 有 所 增 大 。 


有 的 时 候 ， 人 们 更 看 重 的 是 数据 库 的 性 能 是 否 足 够 高 ， 而 不 是 它 是 否 支 持 即 时 一 致 性 或 ACID 事务 。 对 于 这 些 场 合 来 说 ， 选 
用 NoSQL 数 据 库 可 能 会 更 好 一 些 。 选 择 数据 库 的 过 程 ， 实 际 上 就 是 为 当前 任务 挑选 合适 工具 的 过 程 。 做 过 的 工作 越 多 ， 工 具 箱 
里 的 工具 也 就 越 丰富 。 


当前 的 数据 库 管理 系统 所 要 应 对 的 应 用 程序 类 型 和 数据 类 型 要 比 原 来 多 。E.F.Codd 在 20 世 纪 70 年 代 研 发 关系 型 数据 模型 
时 ， 主 要 的 数据 库 用 户 都 是 商务 机 构 和 政府 机 构 。 


那 时 还 没有 个 人 计算 机 、 智 能 手机 和 平板 电脑 ， 因 特 网 (Internet) 主要 由 政府 和 学 术 研 究 者 使 用 ， 万 维 网 (World Wide 
Web) 的 出 现 要 等 到 将 近 20 年 之 后 ， 而 全 球 定位 系统 (Global Positioning System，GPS) 也 是 在 1995 年 才 开始 全 面 运作 的 。 


今天 的 上 T 从 业者 要 处 理 的 同类 工作 数据 比 20 世 纪 70 年 代 更 多 ， 此 外 还 要 应 对 新 型 的 数据 ， 如 社交 网 络 数据 、 与 客户 有 关 的 
详细 统计 数据 ， 以 及 与 用 户 的 偏好 有 关 的 数据 等 。 


移动 设备 会 生成 与 用 户 的 行为 和 地 点 有 天 的 大 量 数 据 。 构 成 物 联 网 (Internet of Things，loT) 的 那些 设备 ， 如 车 载 设 
备 、 家 用 电器 等 ， 是 另 一 个 潜在 的 数据 源 。 与 过 去 相 比 ， 数 据 的 产生 范围 发 生 了 许多 变化 ， 数 据 和 应 用 程序 的 规模 也 和 从 前 不 
同 ， 因 此 ， 业 界 自然 需要 用 新 的 数据 管理 技术 来 应 对 这 些 变化 。 


今天 的 天 系 型 数据 库 依 然 可 以 继续 为 交易 处 理 系统 及 商务 智能 程序 提供 技术 支持 。 通 过 数 十 年 的 工作 积累 ， 整 个 业界 已 经 总 
结 出 了 一 套 应 对 交易 处 理 系统 及 数据 仓库 的 开发 技巧 和 设计 原则 ， 这 套 做 法 能 够 继续 满足 商业 机 构 、 政 府 机 构 和 其 他 一 些 机 构 的 
同时 ， 这 些 组 织 也 在 熟悉 新 的 技术 ， 这 些 新 技术 都 是 在 关系 型 数据 模型 诞生 之 后 才 出 现 的 。 直 接 面向 客户 的 Web 应 用 程 

序 、 移 动 服务 ， 以 及 大 数据 分 析 等 工作 ， 有 时 能 用 天 系 型 数据 库 来 处 理 ， 有 时 则 不 行 。 


于 是 ， 当 前 的 技术 人 员 就 需要 了 解 多 种 数据 库 技术 。 正 如 编程 语言 之 中 没有 最 佳 编程 语言 一 样 ， 数 据 库 管理 系统 里 面 也 没有 
哪 种 产品 能 够 解决 所 有 的 问题 。 每 一 种 数据 库 系 统 都 有 它 擅长 解决 的 问题 类 型 ， 而 开发 者 与 设计 者 正 是 要 根据 自己 所 面 对 的 需求 
来 寻找 最 适合 解决 该 需求 的 那 种 数据 库 。 


15.3 小结 


应 用 程序 的 开发 者 要 选择 编程 序 时 所 用 的 开发 语言 、 工 作 时 所 处 的 开发 环境 ， 以 及 部 署 产品 时 所 用 的 Web 框 架 。 而 数据 库 
管理 系统 也 需要 由 开发 者 来 选择 。 各 种 类 型 的 数据 库 管理 系统 都 能 够 解决 实际 工作 中 的 问题 ， 但 是 有 的 问题 用 某 一 种 数据 库 能 
很 好 地 解决 ， 而 改 用 其 他 数据 库 则 未 必 能 够 解决 得 这 么 好 。 


开发 者 与 设计 者 的 一 项 职责 就 是 选 出 最 适合 应 用 程序 的 那 种 数据 库 。 要 想 选 出 最 为 恰当 的 数据 库 ， 就 得 理解 自己 所 要 解决 的 
间 题 领域 以 及 用 户 的 需求 。 在 掌握 了 这 些 内 容 之 后 ， 通 常会 发 现 有 多 个 数据 库 产品 可 供 选 择 。 某 些 项 目 适 合用 键 值 数据 库 或 文档 
数据 库 来 做 ， 其 他 一 些 项 目 或 许 更 适合 用 图 数据 库 来 做 ， 甚 至 有 的 时 候 头 一 天 还 在 使 用 键 值 数据 库 ， 第 二 天 就 决定 切换 到 图 数据 
库 。 这 种 做 法 并 不 奇怪 ， 因 为 数据 库 的 选择 是 由 不 断 变化 的 需求 来 引领 的 。 


15.4 复习 题 


1. 说 出 键 值 数据 库 的 两 种 用 途 。 

2. 说 出 两 条 采用 键 值 数据 库 来 开发 应 用 程序 的 理由 。 
3. 说 出 文档 数据 库 的 两 种 用 途 。 

4. 说 出 两 条 及 用 文档 数据 库 来 开发 应 用 程序 的 理由 。 
5. 说 出 列 族 数 据 库 的 两 种 用 途 。 

6. 说 出 两 条 采用 列 族 数据 库 来 开发 应 用 程序 的 理由 。 
7. 说 出 图 数据 库 的 两 种 用 途 。 

8. 说 出 两 条 采用 图 数据 库 来 开发 应 用 程序 的 理由 。 
9. 说 出 两 种 最 适合 使 用 关系 型 数据 库 的 应 用 程序 。 


10. 论 述 NoSQL 数 据 库 与 关系 型 数据 库 在 企业 级 数据 管理 之 中 的 地 位 。 
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附录 B NoSQL 数 据 库 列表 


附录 A ”各 章 复 习题 的 参考 答案 


本 附录 列 出 了 本 书 所 有 复习 题 的 参考 答案 。 
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1. 在 基于 文件 的 数据 管理 系统 中 ， 如 果 记 录 的 排 布 形式 发 生 了 变化 ， 那 么 还 要 同时 修改 系统 的 哪 一 个 部 分 ? 
答案 : 还 要 修改 访问 数据 的 程序 。 
2. 分 层 数据 管理 系统 支持 哪 一 种 关系 ? 
a. 父 节点 与 子 节点 关系 


b. 多 对 多 关系 


d. 不 允许 创建 关系 
答案 : a. 分 层 数 据 管理 系统 支持 在 父 节点 与 子 节点 之 间 创 建 天 系 。 
3. 网 络 数据 管理 系统 支持 哪 种 关系 ? 
a. 父 节点 与 子 节点 关系 
b. 多 对 多 关系 
C. 父 子 节点 关系 和 多 对 多 关系 
d. 不 允许 创建 关系 
答案 : c. 网 络 数据 管理 系统 同时 支持 父子 节点 关系 和 多 对 多 关系 。 
4. 写 出 一 条 SQL 数 据 操作 语言 的 范例 语句 。 


答案 : 范例 语句 可 以 是 INSERT、DELETE、UPDATE 或 SELECT 语 句 。 比 方 说 ， 可 以 是 下 面 这 样 的 INSERTi 语 句 : 


INSERT INTO employee (emp id, first name, last name) 
VALUES (1234, 'Jane', 'Smith') 


5. 写 出 一 条 SQL 数据 定义 语言 的 范例 语句 。 


答案 : CREATE TABLE 语 句 就 是 一 种 数据 定义 语句 。 下 面 给 出 CREATE TABLE 范 例 语 句 : 


CREATE TABLE employee ( 
emp _ id int, 
emp first name varchar (25), 
emp last name varchar (25), 
emp address varchar(50), 
emp city varchar (50), 
emp_ state varchar (2), 
emp zip varchar(5), 
emp position title varchar(30) 


) 


6. 什 么 叫做 纵向 扩展 (scale up) ? 


答案 : 纵向 扩展 是 指 给 现 有 的 数据 库 服务 器 添加 更 多 CPU、 内 存 、 带 宽 及 其 他 资源 ， 或 是 用 另外 一 台 CPU、 内 存 及 其 他 资 
源 更 为 丰富 的 计算 机 来 取代 现 有 的 服务 器 。 


7. 什 么 叫做 横向 扩展 (scale out) ? 

答案 : 横向 扩展 是 指 给 集群 中 添加 新 的 服务 器 。 

8.NoSQl 数 据 库 与 天 系 型 数据 库 之 间 是 否 会 像 天 系 型 数据 库 与 早期 数据 管理 系统 之 间 那 样 呈现 相互 蔡 代 的 关系 ? 
答案 : NoSQL 不 打算 取代 关系 型 数据 库 。 二 者 可 以 分 别 面 对 不 同类 型 的 需求 。 


9. 关 系 型 数据 库 管理 系统 (RDBMS) 的 4 个 必 备 组 件 是 什么 ? 


项 
因 


. 存储 管理 程序 


" 内 存 管理 程序 


* 数据 库 代 码 


11. 促 使 数据 库 设 计 者 与 其 他 上 T 从 业者 研发 并 使 用 NoSQL 数 据 库 的 4 个 动机 是 什么 ? 


1 该 
斩 


“ 可 伸缩 性 


` 成 本 开销 


. 灵活 性 


答案 : 分 布 式 系统 就 是 运行 在 多 台 服 务 器 中 的 系统 。 


DD 
六 
BE 


述 两 阶段 提交 的 过 程 。 这 种 提交 方式 是 有 助 于 确保 一 致 性 ， 还 是 有 助 于 确保 可 用 性 ? 


答案 : 两 阶段 提交 是 一 种 事务 ， 它 需要 在 两 个 不 同 的 地 点 写 入 数据 。 在 该 操作 的 第 一 阶段 ， 数 据 库 会 把 数据 写 入 (或 者 说 提 
交 到 ) 主 服务 器 的 磁盘 之 中 ; 在 该 操作 的 第 二 阶段 ， 数 据 库 会 把 数据 写 入 备份 服务 器 的 磁盘 之 中 。 


答案 : 两 阶段 提交 有 助 于 确保 一 致 性 。 


3.CAP 定 理 中 的 C 和 A 分 别 是 什么 意思 ? 对 于 这 两 个 方面 来 说 ， 提 升 其 中 的 某 一 个 方面 ， 可 能 会 使 男 外 一 个 方面 难以 维持 。 
请 举例 说 明 这 种 情况 。 


答案 : C 表 示 一 致 性 (consistency) ，A 表 示 可 用 性 (availability) 。 


例如 ， 在 进行 两 阶段 提交 时 ， 数 据 库 系 统 能 够 优先 保证 一 致 性 ， 但 是 可 能 会 使 某 些 数据 暂时 不 可 用 。 在 执行 两 阶段 提交 的 过 
程 中 ， 对 该 数据 的 其 他 查询 操作 都 会 受到 阻塞 。 必 须 等 两 阶段 提交 执行 完毕 ， 其 他 用 户 才 可 以 访问 更 新 后 的 数据 。 这 就 是 一 种 通 
过 降低 可 用 性 来 提升 一 致 性 的 情况 。 


4.BASE 中 的 E 表 示 最 终 一 致 性 。 请 问 最 终 一 致 性 是 什么 意思 ? 


答案 : E 表 示 最 终 一 致 性 ， 它 的 意思 是 说 ， 虽 然 某 些 副本 在 某 段 时 间 内 可 能 会 暂时 出 现 数据 不 一 致 的 现象 ， 但 是 这 些 副本 中 


5. 请 描述 单调 写 入 的 一 致 性 ， 并 解释 这 种 一 致 性 为 什么 非常 重要 。 


答案 : 单调 写 入 的 一 致 性 能 够 确保 用 户 在 发 出 许多 条 更 新 命令 之 后 ， 数 据 库 总 是 能 按照 这 些 命令 之 间 的 发 布 顺序 来 执行 它 
们 。 这 就 可 以 保证 某 一 组 命令 的 执行 结果 总 是 能 够 预测 的 。 对 同一 份 源 数 据 反 复 执行 这 套 命 令 ， 总 能 得 到 相同 的 结 


6. 在 键 值 数 据 库 中 ， 一 个 键 可 以 对 应 几 个 值 ? 


7. 什 么 叫做 命名 空间 ? 它 在 键 值 数据 库 中 为 何 显得 很 重要 ? 
答案 : 命名 空间 是 由 标识 符 所 构成 的 集合 。 同 一 个 命名 空间 内 的 各 键 ， 其 名 称 必须 互 不 相同 。 
8. 文 档 数 据 库 与 键 值 数据 库 有 什么 区 别 ? 


答案 : 键 值 数据 库 会 把 实体 的 每 个 属性 都 与 某 个 键 关联 起 来 ， 而 文档 数据 库 则 不 同 ， 它 会 把 这 些 属性 全 都 保存 在 一 份 文档 之 
中 。 用 户 可 以 根据 文档 中 的 键 值 对 来 筛选 数据 ， 从 而 执行 查询 及 获取 操作 。 


答案 : 文档 数据 库 不 需要 预先 定义 固定 的 纲要 (schema) ， 而 且 文 档 里 面 可 以 嵌入 其 他 文档 ， 也 可 以 嵌入 由 多 个 值 所 构成 
的 列表 。 


10. 说 出 列 族 数据 库 所 用 的 两 种 数据 结构 。 


答案 : 列 和 列 族 。 


一 人 


1. 图 数据 库 的 两 种 基本 数据 结构 是 什么 ? 


答案 : 节点 与 关系 ， 也 称 为 项 点 和 边 。 


12 假设 现在 要 用 数据 库 对 每 位 雇员 以 及 该 雇员 在 公司 内 的 诸位 协作 者 进行 建 模 。 数 据 库 必须 能 够 查 出 与 某 位 雇员 协同 工作 
的 其 他 员工 数量 ， 而 且 还 要 能 够 查 出 在 与 A 雇 员 相 协作 的 员工 中 ， 有 多 少 人 同时 还 与 B 雇 员 保持 协作 。 哪 一 种 NoSQI 数 据 库 最 适 
合 实现 这 种 需求 


答案 : 由 于 这 些 查询 操作 涉及 雇员 之 间 的 关系 ， 所 以 最 适合 用 图 数据 库 来 实现 。 在 构建 数据 模型 时 ， 可 以 把 雇员 视 为 顶点 ， 
把 雇员 间 协 同 工 作 的 关系 视 为 连接 两 个 顶点 的 边 。 
第 3 章 


1. 关 联 数组 和 普通 数组 有 什么 区 别 ? 


答案 : 关联 数组 是 一 种 与 普通 数组 类 似 的 数据 结构 ， 但 是 ， 它 并 不 强制 使 用 整数 做 下 标 ， 而 且 也 不 要 求 所 有 元 素 的 值 都 必须 
同一 类 型 。 有 序列 表 采 用 标识 符 来 做 下 标 ， 而 关联 数组 则 是 对 有 序列 表 的 一 种 扩展 ， 其 标识 符 和 标识 符 所 对 应 的 值 ， 内 容 都 不 


受 限 制 。 


各 


2. 怎 样 用 缓存 提升 关系 型 数据 库 的 性 能 ? 


答案 : 内 存 中 的 缓存 是 一 种 关联 数组 。 可 以 把 从 关系 型 数据 库 中 获取 到 的 值 保存 到 绥 存 里 面 ， 然 后 针对 每 个 值 创建 对 应 的 
键 。 需 要 访问 客户 数据 的 那些 程序 一 般 会 先 在 缓存 里 搜寻 自己 要 找 的 数据 ， 如 果 找 不 到 ， 青 去 查询 数据 库 。 从 内 存 中 获取 数据 的 
速度 要 比 从 磁盘 中 获取 快 很 多 。 


Y 
料 
El 


名 空间 是 安排 键 值 对 所 用 的 一 种 逻辑 数据 结构 。 同 一 命名 空间 内 的 各 键 ， 名 称 不 得 重复 。 命 名 空间 有 时 也 称 为 桶 。 
4 .描述 一 种 键 名 构造 方式 ， 这 种 方式 要 含有 与 实体 及 属性 类 型 有 关 的 某 些 信息 。 


答案 : 开发 者 可 以 使 用 这 样 的 命名 方式 来 构造 键 名 ， 也 就 是 先 写 表格 名 称 ， 然 后 写 主 键 的 值 ， 最 后 写 属性 名 。 例 
如 ，customer: 1982737: firstName。 


5. 说 出 键 值 数据 库 的 三 种 常见 特性 。 


.易于 缩放 


6. 什 么 叫做 哈 希 函数 ? 请 用 哈 希 函数 的 重要 特征 来 给 出 这 个 定义 。 


答案 : 哈 希 函数 是 能 够 根据 任意 字符 串 来 产生 定 长 字符 串 的 函数 ， 它 所 产生 的 定 长 字符 串 一 般 来 说 不 会 相互 重复 。 哈 希 消 数 
所 映射 出 的 值 看 起 来 应 该 比较 随机 才 对 。 


7. 怎 样 通过 哈 希 浮 数 把 写 入 请 求 分 布 到 多 台 服 务 器 上 面 ? 


答案 : 可 以 把 哈 希 值 与 服务 器 总 数 相 除 。 有 的 时 候 前 者 可 以 为 后 者 所 整除 ， 有 的 时 候 则 会 留 有 余数 。 可 以 通过 余数 来 确定 哪 
一 台 服 务 器 应 该 受理 此 次 写 入 请 求 。 


8. 在 实际 使 用 层面 ， 键 值 数据 库 中 所 能 存储 的 值 会 受到 什么 样 的 限制 ? 请 举例 说 明 。 


答案 : 键 值 数据 库 对 值 所 施加 的 限制 会 因 实 现 方 式 而 有 所 不 同 。 例 如 ， 某 些 键 值 数据 库 通 常会 限制 值 的 大 小 。 有 的 数据 库 允 
许 使 用 长 达 数 百 万 个 字 节 的 值 ， 而 另外 一 些 数 据 库 则 只 人 允许 使 用 长 度 较 小 的 值 。 即 便 能 够 在 数据 库 里 保存 极 大 的 数值 ， 也 依然 有 
可 能 因为 性 能 问题 而 必须 改 用 较 小 的 值 。 


9. 开 发 者 在 编写 应 用 程序 时 ， 要 怎样 面 对 键 值 数据 库 不 支持 查询 语言 这 一 问题 ? 


答案 : 键 值 数据 库 不 支持 通过 查询 语言 对 值 进行 搜索 。 于 是 ， 应 用 程序 的 开发 者 可 以 考虑 在 自己 的 程序 里 面 实 现 搜索 操作 。 
此 外 ， 有 些 键 值 数 据 库 会 直接 把 搜寻 功能 内 置 到 数据 库 中 。 


10. 对 于 使 用 键 值 数据 库 的 应 用 程序 来 说 ， 怎 样 通过 搜索 系统 来 改善 其 性 能 ? 


答案 : 键 值 数据 库 内 置 的 搜索 系统 能 够 根据 数据 库 所 存储 的 字符 串 值 编制 一 份 索引 ， 使 得 应 用 程序 可 以 迅速 获取 相关 的 数 
据 。 有 了 这 份 索 引 ， 程 序 就 不 用 为 了 查找 某 个 字符 串 而 去 遍历 所 有 的 值 了 ， 因 为 搜寻 系统 会 把 每 个 值 中 所 出 现 过 的 全 部 单词 都 列 
出 来 ， 而 且 还 会 把 包含 该 单词 的 那些 键 值 对 所 具备 的 键 名 也 一 并 记录 下 来 。 


第 4 章 
1. 什 么 是 数据 模型 ”它们 与 数据 结构 的 区 别 是 什么 ? 


答案 : 数据 模型 是 一 种 抽象 方式 ， 用 来 排 布 由 数据 库 中 的 数据 所 传达 的 信息 。 数 据 结构 是 具备 明确 定义 的 数据 存储 结构 ， 它 
们 需要 通过 底层 硬件 中 的 某 些 元 件 来 实现 ， 尤 其 是 要 通过 随机 存 取 内 存 (RAM) 和 硬盘 及 内 存盘 等 持久 化 的 数据 驱动 设备 来 完 
成 。 而 数据 模型 则 是 搭建 在 数据 结构 之 上 的 一 种 布局 和 抽象 机 制 。 


2. 什 么 是 分 区 ? 


答案 : 分 区 就 是 在 大 型 结构 中 所 划分 的 一 些 逻辑 子 区 域 。 集 群 或 者 服务 器 群 组 可 以 划分 为 多 个 分 区 。 集 群 中 的 每 个 分 区 都 是 
由 服务 器 或 运行 在 服务 器 上 的 键 值 数据 库 软件 实例 所 构成 的 群 组 ， 它 们 分 别 负责 管理 数据 库 中 的 数据 子 集 。 


3. 请 描述 两 种 不 同 的 集群 ， 并 说 出 键 值 数据 库 经 常 使 用 的 是 哪 一 种 集群 。 


答案 : 集群 分 为 松散 耦合 的 集群 和 紧密 耦合 的 集群 。 松 散 耦 合 的 集群 是 由 多 台 相 对 独立 的 服务 器 所 构成 的 ， 这 些 服务 器 之 间 
行 少量 通信 和 即 可 各 自 完成 许多 任务 。 紧 密 奈 合 的 集群 是 由 相互 之 间 通 信和 非常 频繁 的 服务 器 所 构成 的 ， 这 些 服 务 器 必须 密切 
配合 才能 执行 某 些 操作 或 计算 。 键 值 数据 库 经 常 部 署 为 松散 耦合 的 集群 。 


案 : 副本 数量 越 多 ， 就 越 不 容易 丢失 数据 ， 但 是 大 量 的 副本 会 使 系统 的 性 能 降低 。 


]1 访 


不 同 的 副本 所 拥有 的 数据 ， 其 版 本 也 可 能 会 不 同 。 昌 然 所 有 副本 最 终 都 会 更 新 到 同一 版 本 ， 但 可 能 出 现 短暂 的 不 同步 现象 。 
5. 从 键 值 数 据 库 中 读 取 数 据 的 时 候 ， 为 什么 想 要 取得 多 个 副本 所 给 出 的 响应 ? 


答案 : 这 样 做 是 为 了 降低 读 到 旧 数 据 和 过 时 数据 的 风险 。 可 以 指定 系统 必须 在 收 到 由 多 少 个 节点 所 给 出 的 相同 应 答 消息 之 
会 把 应 答 结 果 返 回 给 发 出 读 取 请 求 的 那个 应 用 程序 。 


6. 在 什么 情况 下 需要 维护 大 量 的 副本 ? 
答案 : 如 果 不 能 允许 数据 丢失 ， 那 么 最 好 维护 较 多 的 数据 副本 。 
7. 键 值 数据 库 为 什么 要 使 用 哈 希 函 数 ? 


答案 : 哈 希 函数 通常 会 把 输入 值 平均 地 映射 到 所 有 可 能 产生 的 输出 值 上 面 。 哈 希 浮 数 的 输出 值 ， 其 取 值 范围 可 能 相当 大 。 无 


论 键 名 之 间 多 么 相似 ， 它 们 总 能 平均 地 分 布 在 取 值 范围 内 的 每 一 种 值 上 面 ， 于 是 就 可 以 把 这 些 输 出 值 与 分 区 对 应 起 来 ， 此 时 可 以 
确信 每 个 分 区 所 收 到 的 数据 量 是 大 致 相同 的 。 


8. 什 么 是 碰撞 ? 

答案 : 当 哈 希 国 数 把 两 个 不 同 的 输入 值 映射 到 同一 个 输出 值 时 ， 就 发 生 了 碰撞 。 

9. 描 述 一 种 不 会 丢失 数据 的 碰撞 处 理 方式 。 

答案 : 哈 希 表 可 以 不 存储 单个 的 值 ， 而 是 把 发 生 碰撞 的 那些 值 都 保存 在 一 份 列表 里 面 。 
10. 讲 述 压缩 速度 与 压缩 率 之 间 的 关系 。 


答案 : 开发 者 要 在 压缩 /解压 缩 的 速度 与 压缩 后 的 数据 大 小 之 间 进 行 权衡 。 由 执行 速度 较 快 的 压缩 算法 所 产生 的 压缩 数据 会 


比 执行 速度 较 慢 的 算法 大 一 些 。 
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1 一 套 良好 的 键 名 规范 应 该 具备 哪 四 项 特征 ? 


]1 访 
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“ 键 名 中 应 该 有 含义 明确 且 没有 歧义 的 内 容 ， 如 用 cust 表 示 顾 客 (customer) ， 用 inv 表 示 库 存 (inventory) 。 
“ 如 果 要 获取 位 于 某 个 范围 内 的 值 ， 那 就 应 该 把 与 这 个 范围 相关 的 内 容纳 入 键 名 。 这 些 内 容 包括 日 期 或 整数 计数 器 。 


. 键 名 的 各 部 分 之 间 应 该 采用 同一 种 分 隔 符 。 通 常会 采用 “: ”做 分 隔 符 ， 但 也 可 以 采用 不 会 出 现在 各 部 分 内 容 之 中 的 其 他 


字符 做 分 隔 符 。 


* 在 不 损害 上 述 特性 的 前 提 下 ， 键 名 越 短 越 好 。 
2. 键 值 数据 库 的 键 会 受到 哪 两 种 限制 ? 


答案 : 键 会 受到 尺寸 和 类 型 这 两 方面 的 限制 。 


答案 : 范围 分 区 是 把 连续 的 值 归 为 一 组 ， 并 将 其 分 配给 集群 中 的 某 个 节点 ， 而 哈 希 分 区 则 是 把 数据 均匀 地 分 布 在 集群 中 的 各 
个 节点 上 面 。 


4. 结 构 化 的 数据 类 型 为 何 能 减少 读 取 时 的 延迟 (也 就 是 减少 从 磁盘 中 获取 数据 块 时 所 需 的 时 间 ) ? 


答案 : 把 经 常用 到 的 一 些 值 放 在 同一 份 列表 或 其 他 数据 结构 中 ， 可 以 减少 磁盘 在 读 取 这 些 数据 时 的 寻 道 次 数 。 由 于 键 值 数据 
库 通 常会 把 整 份 数 据 结构 保存 在 同一 个 数据 块 内 ， 因 此 无 需 把 其 中 的 各 项 数据 分 别 与 多 个 键 关联 起 来 ， 而 且 磁 盘 也 无 需 从 多 个 数 
据 块 中 读 取 这 些 数据 。 


5. 描 述 TTL 键 (Time to Live key) 模式 。 


答案 : TTL 参 数 限定 了 某 条 键 值 记录 的 存在 时 间 。TTL 模 式 通常 适用 于 键 值 数据 库 的 键 。 当 要 在 内 存 比较 紧张 的 服务 器 中 缓 
人 存 数据 ， 或 是 要 在 某 段 时 间 内 持 有 某 份 资源 的 时 候 ， 该 模式 尤为 有 用 。 


6. 哪 一 种 设计 模式 能 够 提供 关系 型 表格 所 具备 的 某 些 特征 ? 
答案 : 模拟 表 (emulating table) 模式 。 
7. 什 么 情况 下 应 该 使 用 聚合 (aggregate) 模式 ? 


答案 : 聚合 模式 用 来 支持 同一 实体 的 各 种 子 类 型 所 具备 的 不 同属 性 。 例 如 ， 音 乐 会 的 场地 就 有 两 种 子 类 型 ,一 种 是 需要 对 号 
入 座 的 场地 ， 另 一 种 是 无 需 对 号 入 座 的 场地 。 


8. 什 么 叫做 可 枚 举 的 键 ? 


答案 : 可 枚 举 的 键 是 一 种 能 够 根据 其 中 的 计数 器 或 序列 来 生成 新 键 的 键 。 在 创建 可 枚 举 的 键 时 ， 通 常会 以 实体 类 型 为 前 组 ， 
把 它 放 在 生成 的 数字 之 前 。 


9. 可 枚 举 的 键 为 什么 有 助 于 实现 范围 式 的 查询 ? 


答案 : 可 以 采用 循环 来 生成 位 于 上 下 界 之 间 的 一 组 键 名 ， 并 据 此 分 别 查 询 位 于 该 范围 内 键 所 对 应 的 值 。 例 如 ， 采 用 从 1 开始 
到 3 结束 的 for 循 环 就 可 以 生成 ticketLog: 20140617: 1、ticketLog: 20140617: 2 及 ticketLog: 20140617: 3 这 三 个 键 。 


10. 如 果 配 置信 息 中 还 要 包含 用 户 的 首选 语言 ， 那 么 应 该 如 何 调整 TGTS Tracker 程 序 的 设计 ? 
答案 : 用 户 的 首选 语言 可 以 添加 到 表示 顾客 数据 的 那 份 列表 里 面 。 例 如 : 


TrackerNS [cust:4719364] = {name:'! Prime Machine, 
Inc.', currency:'USD', language:'EN')} 


第 6 章 
1. 描 述 文档 数据 库 中 的 文档 。 


答案 : 文档 数据 库 中 的 文档 是 由 属性 标签 (attribute tag， 属 性 标记 ) 和 属性 值 所 组 成 的 集合 。 开 发 者 可 以 自行 拟定 一 套 属 
性 标签 ， 而 并 不 需要 预先 定义 一 组 固定 的 标签 来 描述 文档 的 结构 。 


2. 说 出 文档 数据 库 保存 数据 所 用 的 两 种 格式 。 


答案 : JSON 及 XML。 


3. 列 出 至 少 三 条 JSON 对 象 的 语法 规则 。 


1 该 
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数据 以 键 值 对 的 形式 来 存放 ， 这 与 键 值 数 据 库 中 的 键 值 对 类 似 。 

. 文档 由 名 值 对 (name-value paif) 所 构成 ， 名 值 对 之 间 以 去 号 分 隔 。 

` 文档 以 “{” 开 头 ， 以 “} 结尾 。 

. 名 值 对 之 中 的 名 称 是 像 "customer id" 及 "address" 这 样 的 字符 囊 。 

“ 名 值 对 之 中 的 值 可 以 是 数字 、 字 符 串 、Boolean (true 或 false) 、 数 组 、 对 象 或 NULL。 
* 数组 里 的 各 元 素 值 写 在 一 对 方 括号 (上) 之 间 。 

. 对 象 本 身 的 值 也 以 键 值 对 的 形式 来 描述 。 对 象 的 数据 放 在 一 对 花 括 号 ({}) 之 间 。 


4. 用 JSON 格 式 创建 一 份 描述 小 型 家 用 电器 的 简单 文档 ， 其 中 要 包含 的 属性 是 家 用 电器 的 ID (appliance ID) 、 名 称 
(name) 、 描 述 (description) 、 高 度 (height) 、 宽 度 (width) 、 长 度 (length) 和 运输 重量 (shipping weight) 。 


符 
[一 
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{ "appliance ID": 132738 ， 
"name": "Toaster Model XxX", 
"description": "Large 4 bagel toaster'", 
"height": "9 in.", 
"width": v75 Tn 
"Lenogthys. V2 1n"., 
"shipping weight": "3.2 lbs" 


5. 在 为 文档 集合 建 模 时 ， 为 什么 通常 不 应 该 使 用 过 于 抽象 的 实体 ? 


答案 : 如 果 使 用 过 于 抽象 的 实体 ， 那 就 会 导致 集合 中 可 能 出 现 很 多 种 不 同 子 类 型 的 文档 。 应 用 程序 若 想 筛选 同一 个 集合 内 的 
某 种 文档 ， 则 需要 依靠 文档 里 的 类 型 标识 符 来 区 分 这 些 子 类 型 。 庞 大 的 集合 会 使 获取 操作 的 效率 有 所 下 降 。 


6. 什 么 情况 下 可 以 合理 地 使 用 抽象 程度 较 高 的 实体 ? 


答案 : 如 果 针 对 集合 所 发 出 的 查询 请 求 能 够 涵盖 所 有 的 子 类 型 或 大 多 数 的 子 类 型 ， 那 就 可 以 考虑 使 用 较为 抽象 的 实体 了 ， 如 
本 章 所 讲 的 产品 实体 就 是 如 此 。 另 外 ， 如 果子 类 型 的 数量 可 能 会 增长 到 几 十 种 乃至 上 上 特种， 那么 也 应 该 把 这 些 子 类 型 纳入 同一 个 
集合 之 中 ， 假 如 采用 各 自 的 集合 来 管理 这 些 子 类 型 ， 则 显得 非常 不 方便 。 


7. 采 用 MongoDB 的 语法 编写 一 条 命令 ， 向 本 章 所 描述 的 db.books 集 合 中 插入 一 本 书 。 


符 
[一 


狂 


qb .books .insetrt( {"title":"Mother Night", "author": 
"Kurt Vonnegut, Jr."} ) 


8. 采 用 MongoDB 的 语法 编写 一 条 命令 ， 从 本 章 所 描述 的 db.books 集 合 中 删除 作者 为 Isaac Asimov ( 艾 萨 克 . 阿 西 莫 夫 ) 的 


db.books.remove ("author'": "Isaac Asimov")}) 


9. 采 用 MongoDB 的 语法 编写 一 条 命令 ， 从 本 章 所 描述 的 db.books 集 合 中 获取 数量 大 于 等 于 20 的 图 书 。 


符 
[一 


狂 


db.books.find( {"quantity'" : {"$gte" : 20 }}) 


10. 想 查询 某 个 键 的 值 是 否 符 合 相 关 的 标准 ， 应 该 采用 哪 一 种 查询 操作 符 ? 


答案 : $in 操 作 符 可 用 来 查询 某 个 键 的 值 是 否 符合 相关 的 标准 。 
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1. 描 述 文档 数据 库 的 文档 与 关系 型 数据 库 的 数据 行 之 间 的 相似 性 。 


答案 : 文档 是 由 键 值 对 所 构成 的 有 序 集 。 键 用 来 引用 特定 的 值 ， 它 与 天 系 型 表格 的 列 名 类 似 。 而 文档 中 的 值 则 与 天 系 型 表格 
中 某 一 行 与 某 一 列 交 汇 处 的 单元 格 的 值 类 似 。 


2. 摘 述 文档 数据 库 的 集合 与 天 系 型 数据 库 的 表格 之 间 的 相似 性 。 


答案 : 集合 是 由 文档 构成 的 集 ， 而 表格 是 由 数据 行 构成 的 集 。 文 档 与 数据 行 都 具备 独特 的 标识 符 ， 此 外 还 可 以 有 其 他 一 些 属 


3. 给 出 schema (纲要 ， 模 式 ) 一 词 的 定义 。 

答案 : schema 是 关于 数据 库 结 构 的 正式 规范 。 

4. 为 什么 说 文档 数据 库 是 无 纲要 的 ? 

答案 : 因为 文档 数据 库 并 不 要 求 数据 建 模 者 手工 指定 文档 的 结构 ， 所 以 它 是 无 纲要 的 。 
5. 为 什么 说 文档 数据 库 是 多 形 的 ? 

答案 : 因为 同一 个 集合 内 可 以 包含 形式 不 同 的 多 份 文档 ， 所 以 它 是 多 形 的 。 

6. 垂 直 分 区 与 水 平分 区 (或 分 片 ) 有 什么 区 别 ? 


答案 : 垂直 分 区 是 一 种 改进 数据 库 性 能 的 技术 ， 它 把 天 系 型 表格 中 的 列 拆 分 到 多 张 表格 之 中 。 如 果 某 些 列 经 常 需要 同时 访 
问 ， 而 另外 一 些 列 则 不 需要 ， 那 么 这 种 分 区 技术 就 比较 有 用 了 。 


水 平分 区 是 一 种 按照 文档 来 划分 文档 数据 库 或 按照 数据 行 来 划分 天 系 型 数据 库 的 流程 。 数 据 库 中 划分 好 的 这 些 部 分 称 为 分 
片 ， 它 们 会 保存 在 不 同 的 服务 器 上 面 。 


7. 什 么 叫做 分 片 键 ? 
答案 : 分 片 键 是 集合 内 的 所 有 文档 都 具备 的 一 个 或 多 个 键 或 字段 ， 用 来 把 这 些 文档 划分 到 不 同 的 分 区 之 中 。 
8. 在 分 片 过 程 中 为 什么 要 使 用 分 区 算法 ? 


答案 : 使 用 分 区 算法 是 为 了 决定 这 些 文档 应 该 怎样 分 布 到 多 个 分 片 之 中 。 常 用 的 分 区 算法 有 范围 分 区 法 、 哈 希 分 区 法 及 列表 
分 区 法 。 


9. 什 么 叫做 规范 化 ? 


答案 : 数据 库 规范 化 是 一 种 通过 整理 表格 数据 来 减 小 数据 异常 发 生 概率 的 流程 。 异 常 是 指数 据 的 不 一 致 现象 。 规 范 化 可 以 减 
少数 据 库 中 多 余数 据 的 总 量 。 


10. 为 什么 要 对 文档 数据 库 的 集合 执行 去 规范 化 操作 ? 

答案 : 因为 规范 化 之 后 的 数据 库 ， 其 性 能 也 许 不 够 高 ， 所 以 要 通过 去 规范 化 操作 来 改善 其 性 能 。 
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1. 规 范 化 的 好 处 是 什么 ? 

答案 : 规范 化 可 以 减少 多 余 的 数据 ， 并 降低 数据 异常 的 风险 。 

2. 去 规范 化 的 好 处 是 什么 ? 

答案 : 与 经 过 规范 化 处 理 的 模型 相 比 ， 在 去 规范 化 的 模型 上 面 查询 ， 效 率 会 更 高 一 些 。 

3. 连 接 Uoin) 操作 的 开销 为 什么 比较 大 ? 


答案 : 要 完成 连接 操作 ， 就 需要 从 多 张 表格 中 获取 数据 。 实 现 连接 操作 的 时 候 ， 还 要 在 循环 之 中 使 用 哈 希 及 合并 等 操作 。 表 
格 尺 寸 越 大 ， 要 读 取 的 数据 就 越 多 ， 而 完成 这 些 操 作 所 花 的 时 间 也 就 越 长 。 索 引 虽 然 能 改善 效率 ， 但 是 磁盘 依然 需要 进行 寻 道 ， 
以 便 获 取 包 含 索引 数据 的 那些 数据 块 。 


4 .文档 数据 库 的 建 模 者 如 何 避 免 开 销 较 大 的 连接 操作 ? 


答案 : 他 们 采用 去 规范 化 的 数据 模型 来 避免 连接 操作 。 这 种 模型 的 基本 思路 是 把 经 常 使 用 的 数据 放 在 同一 个 数据 结构 之 中 ， 
如 放 在 关系 型 数据 库 的 同一 张 表 格 或 文档 数据 库 的 同一 份 文 档 之 中 。 这 样 做 使 得 文档 中 的 数据 更 有 可 能 会 保存 在 同一 个 数据 块 之 
内 ， 即 便 不 在 同一 个 数据 块 里 ， 也 依然 有 可 能 会 放 在 相 邻 的 数据 块 之 中 。 


5. 如 果 文 档 中 的 数据 过 多 ， 那 么 除了 操作 这 些 数据 所 引发 的 开销 之 外 ，IMO 子 系统 还 会 有 更 多 的 负担 ， 这 是 为 什么 ? 


答案 : 如 果 去 规范 化 执行 得 太 过 分 ， 那 就 会 产生 较为 庞大 的 文档 ， 这 可 能 会 导致 数据 库 在 从 持久 化 存储 中 读 取 数 据 时 ， 必 须 
读 入 一 些 用 不 到 的 数据 。 


6. 文 档 数 据 库 的 建 模 者 如 何 才能 避免 问题 5 中 提 到 的 那些 额外 负担 ? 


答案 : 应 该 根据 查询 请 求 的 特征 来 设计 文档 。 试 着 只 把 经 常 一 起 使 用 的 那些 字段 放 在 文档 之 中 。 如 果 需 要 满足 针对 同一 类 数 


据 的 多 套 查 询 请 求 ， 那 就 考虑 采用 多 个 文档 集合 来 分 别 满足 它们 ， 每 个 集合 都 专门 为 某 一 套 查 询 请 求 做 出 优化 。 
7. 举 例 说 明 在 何 种 情况 下 需要 为 文档 数据 库 的 集合 编制 大 量 的 索引 ? 


答案 : 读 取 请 求 相对 较 多 的 程序 ， 尤 其 是 那 种 需要 处 理 即时 查询 的 程序 ， 可 能 需要 编制 许多 份 索引 。 商 务 智 能 程序 与 其 他 分 
析 数 据 的 应 用 程序 就 属于 这 种 类 型 。 需 要 处 理 即时 查询 并 且 读 取 请 求 相对 较 多 的 那 种 程序 ， 基 本 上 应 该 为 有 助 于 过 滤 查 询 结果 的 
全 部 字段 都 编制 索引 。 比 方 说 ， 如 果 用 户 经 常 查询 某 个 销售 区 域内 的 文档 ， 或 是 与 某 类 产品 有 天 的 订单 项 ， 那 就 应 该 为 销售 区 域 
及 产品 类 型 这 两 个 字段 编制 索引 。 


8. 在 什么 情况 下 需要 尽量 缩减 文档 集合 的 索引 数量 ? 


答案 : 数据 建 模 者 在 开发 写 入 请 求 相 对 较 多 的 应 用 程序 时 ， 会 尽量 缩减 索引 数量 。 由 于 索引 这 种 数据 结构 也 是 需要 创建 和 更 
新 的 ， 因 此 ， 它 们 会 消耗 CPU 资源 、 持 久 化 存储 空间 以 及 内 存 资源 ， 而 且 还 会 增加 在 数据 库 中 插入 或 更 新 文档 所 需 的 时 间 。 


9. 如 何 为 多 对 多 的 关系 建 模 ? 


答案 : 多 对 多 关系 需要 用 两 个 集合 来 建 模 ， 每 个 集合 表示 一 种 实体 。 每 个 集合 的 文档 中 都 包含 一 份 由 标识 符 组 成 的 列表 ， 其 
中 的 标识 符 分 别 指向 男 一 个 实体 的 相关 实例 。 比 方 说 ， 表 示 课 程 数 据 的 文档 中 可 能 含有 一 份 由 学 生 ID 所 构成 的 数组 ， 而 表示 学 
生 数 据 的 文档 中 则 会 包含 一 份 由 课程 I1D 所 组 成 的 列表 。 


10. 有 哪 三 种 方式 可 以 为 文档 数据 库 中 的 层级 关系 建 模 ? 
答案 : 指向 父 节 点 的 引用 、 指 向 子 节点 的 引用 、 由 全 部 上 级 节点 所 构成 的 列表 。 
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1. 说 出 至 少 三 项 Google BigTable 的 核心 特性 。 


] 访 
斩 


. 开发 者 可 以 动态 地 控制 各 列 。 

. 数据 值 是 依照 行 标识 符 、 列 名 及 时 间 稚 来 定位 的 。 
. 数据 建 模 者 和 开发 者 可 以 控制 数据 的 位 置 。 

. 对 数据 行 的 读 取 操 作 和 写 入 操作 都 是 原子 操作 。 
. 数据 行 是 按照 一 定 的 顺序 来 维护 的 。 

2.Google BigTable 为 什么 要 使 用 时 间 戳 ? 


答案 : 时 间 戳 可 以 用 来 对 不 同 版 本 的 列 值 进行 排序 。 向 BigTable 数 据 库 中 写 入 新 值 之 后 ， 原 有 的 值 并 不 会 遭 到 覆盖 。 数 据 
库 会 给 新 加 入 的 值 打 上 时 间 戳 ， 应 用 程序 可 以 根据 时 间 改 来 判断 哪 一 个 列 值 是 最 新 的 。 


3. 说 出 列 族 数 据 库 与 键 值 数据 库 之 间 的 一 个 共同 点 。 


答案 : 列 族 数据 库 中 的 列 族 与 键 值 数据 库 中 的 键 空间 类 似 。 在 键 值 数 据 库 和 Cassandra 数 据 库 中 ， 键 空间 都 是 数据 建 模 者 和 
开发 者 所 使 用 的 最 外 围 逻 辑 结构 。 


4. 说 出 列 族 数 据 库 与 文档 数据 库 之 间 的 一 个 共同 点 。 


答案 : 列 族 数据 库 与 文档 数据 库 都 支持 一 种 相似 的 查询 ， 使 得 开发 者 可 以 选 出 某 个 数据 行 中 的 一 部 分 数据 。 


与 文档 数据 库 一 样 ， 列 族 数 据 库 也 不 要 求 每 一 行 都 要 把 所 有 的 列 填 满 。 在 使 用 列 族 数 据 库 与 文档 数据 库 时 ， 开 发 者 可 以 根据 
需要 随时 添加 列 或 字段 。 


5. 说 出 列 族 数据 库 与 关系 型 数据 库 之 间 的 一 个 共同 点 。 


答案 : 列 族 数据 库 与 天 系 型 数据 库 都 会 给 每 个 数据 行 指定 一 个 独特 的 标识 符 。 这 个 标识 符 在 列 族 数 据 库 中 称 为 行 键 ， 而 在 关 
系 型 数据 库 中 则 称 为 主键 。 行 键 和 主键 都 会 编 入 索引 之 中 ， 以 便 快 速 获取 相关 的 数据 。 


7. 描 述 对 等 架构 ( 端 对 端 架 构 ) 的 基本 特征 。 
答案 : 对 等 架构 只 使 用 一 种 类 型 的 节点 。 集 群 中 的 每 个 节点 都 应 该 能 运行 本 集群 所 支持 的 每 一 种 服务 或 任务 。 
8.Cassandra 数 据 库 为 什么 要 通过 Gossip 协 议 来 交换 服务 器 状态 信息 ? 


答案 : 如 果 每 个 服务 器 都 轮番 与 集群 中 的 其 他 服务 器 相通 信 ， 那 么 网 络 中 的 流量 就 会 激增 ， 而 且 每 台 服务 器 用 于 和 其 他 服务 
器 相 沟通 的 时 间 也 会 大 幅 增加 。 集 群 里 的 消息 总 量 是 服务 器 数量 的 函数 。 若 集群 中 有 N 人 台 服 务 器 ， 则 共 需 传递 Nx (N-1) 条 消 
息 ， 才 能 使 每 台 服 务 器 都 知悉 其 他 服务 器 的 最 新 状态 。Gossip 协 议 与 上 述 方式 不 同 ， 它 要 求 服务 器 在 交换 消息 时 ， 不 仅 要 把 自 
己 的 状态 信息 传递 出 去 ， 而 且 还 要 把 自己 所 知道 的 其 他 服务 器 的 状态 信息 也 一 起 传递 出 去 。 因 此 ， 用 Gossip 协 议 来 传递 消息 ， 
其 效率 要 高 于 刚才 所 说 的 那 种 方式 。 


9.Cassandra 数 据 库 所 使 用 的 反 蚁 协议 ， 其 目标 是 什么 ? 
答案 : 之 所 以 要 使 用 反 精 算法 是 为 了 更 正副 本 之 间 的 数据 不 一 致 问 题 。 
10. 在 什么 情况 下 会 优先 选用 列 族 数据 库 ， 而 不 是 其 他 类 型 的 NoSQL 数 据 库 ? 


答案 : 如 果 要 部 署 一 套 写 入 效率 比较 高 的 大 规模 数据 库 ， 而 且 又 要 求 该 数据 库 必须 运行 在 多 台 服 务 器 乃至 多 个 数据 中 心 之 
上 ， 那 么 就 可 以 考虑 采用 列 族 数据 库 。 


此 外 ， 在 需要 用 大 量 服务 器 来 应 对 网 络 负载 的 场合 ， 也 可 以 考虑 采用 列 族 数据 库 。 
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1. 什 么 是 键 空 间 ? 在 关系 型 数据 库 中 ， 与 键 空间 类 似 的 数据 结构 叫 什么 ? 


答案 : 键 空间 是 列 族 数据 库 的 顶级 数据 结构 。 之 所 以 称 其 为 顶级 数据 结构 ， 是 因为 数据 库 设 计 者 所 创建 的 其 他 数据 结构 都 要 
包含 在 键 空间 里 面 。 键 空间 与 关系 型 数据 库 的 纲要 是 类 似 的 。 


2. 列 族 数据 库 的 列 与 关系 型 数据 库 的 列 有 何 区 别 ? 


答案 : 列 族 数据 库 的 列 是 可 以 动态 添加 的 ， 而 关系 型 数据 库 表 格 中 的 列 则 不 像 列 族 数据 库 中 的 列 那样 灵活 。 使 用 天 系 型 数据 
库 的 时 候 ， 必 须 先 修改 纲要 的 定义 ， 然 后 才能 向 其 中 添加 新 的 列 。 而 使 用 列 族 数 据 库 时 ， 则 只 需 在 应 用 程序 中 给 出 列 名 即 可 。 例 
如 ， 可 以 在 程序 代码 里 面 指出 这 个 新 列 的 名 称 ， 并 向 其 中 插入 一 个 值 。 


3. 什 么 样 的 列 应 该 归 入 同一 个 列 族 里 面 ? 什么 样 的 列 应 该 放 在 不 同 的 列 族 之 中 ? 
答案 : 经 常 需要 同时 使 用 的 那些 列 应 该 归 入 同一 个 列 族 ， 而 不 经 常 同时 使 用 的 那些 列 则 可 以 分 别 放 在 不 同 的 列 族 之 中 。 
4. 分 区 在 列 族 数 据 库 中 的 用 途 是 什么 ? 


答案 : 分 区 是 数据 库 的 一 种 逻辑 子 集 。 数 据 库 通 常会 根据 数据 的 某 些 属性 把 相关 的 一 组 数据 划 入 同一 个 分 区 之 中 。 列 族 数 据 
库 集群 中 的 每 个 节点 或 服务 器 上 面 可 以 维护 一 个 或 多 个 分 区 。 


客户 端 程序 向 数据 库 请 求 数据 的 时 人 息 ， 所 发 出 的 请 求 最 终 会 交 由 合适 的 服务 器 来 处 理 ， 该 请 求 所 要 获取 的 数据 就 保存 在 那 台 
服务 器 的 分 区 之 中 。 在 主 从 式 架 构 里 ， 该 请 求 会 先 发 给 中 心服 务 器 ; 而 在 对 等 式 架 构 中 ， 则 可 以 先 发 给 任何 一 人 台 服 务 器 。 无 论 采 
用 哪 种 架构 ， 此 请 求 最 终 都 能 转发 给 正确 的 服务 器 。 


5. 使 用 提交 日 志 可 以 获得 哪些 性 能 优势 ? 


答案 : 提交 日 志 是 一 种 只 能 在 其 尾部 追加 数据 的 文件 。 数 据 库 管 理 员 可 以 把 某 个 磁盘 专门 划分 给 提交 日 志 使 用 ， 这 样 的 话 ， 
就 不 会 有 其 他 写 入 操作 来 抢占 这 块 磁盘 了 ， 于 是 随机 寻 道 次 数 和 延迟 时 间 就 可 以 变 得 更 少 一 些 。 


6. 使 用 Bloom 过 滤器 的 好 处 是 什么 ? 


答案 : Bloom 过 滤器 可 以 测试 某 元 素 是 不 是 某 个 集合 的 成 员 ， 如 能 够 判断 出 录 数 据 是 否 位 于 某 分 区 之 中 。 如 果 受 测 元 素 确 
实 位 于 集合 之 中 ， 那 么 Bloom 过 滤器 绝对 不 会 给 出 否定 的 回复 ， 然 而 当 判断 一 个 并 不 存在 于 集合 内 的 元 素 时 ，Bloom 过 滤器 却 
有 可 能 给 出 肯定 的 答复 。Bloom 过 滤器 可 用 来 减少 数据 库 系 统 从 磁盘 或 固态 设备 中 所 需 读 取 的 数据 块 数量 。 


7. 设 置 一 致 性 级 别 的 时 候 ， 应 该 考虑 哪些 因素 ? 

答案 : 设置 一 致 性 级 别 的 时 候 ， 需 要 考虑 很 多 相互 制衡 的 需求 : 

. 数据 库 把 数据 保存 到 持久 化 存储 区 之 后 ， 应 该 在 多 长 时 间 内 返回 表示 操作 成 功 的 消息 ? 
- 两 位 用 户 通过 同一 个 行 键 来 查询 同一 组 列 时 ， 是 否 允许 数据 库 向 其 分 别 返 回 不 同 的 数据 ? 


“ 如 果 应 用 程序 要 跨越 多 个 数据 中 心 而 运行 ， 那么 当 其 中 一 个 数据 中 心 出 现 故障 时 ， 其 他 数据 中 心里 是 否 必须 具备 最 新 的 数 
据 ? 


是 否 愿 意 适当 降低 读 取 操作 的 一 致 性 ， 而 使 得 数据 库 可 以 把 数据 更 新 到 两 个 或 多 个 副本 之 中 ? 
8. 设 置 复 制 策略 (replication strategy) 的 时 候 ， 应 该 考虑 哪些 因素 ? 


答案 : 一 种 复制 方式 是 根据 集群 的 环 状 结构 来 进行 复制 。 当 数据 写 入 某 个 节点 之 后 ， 把 它 复制 到 集群 中 与 该 节点 相 邻 的 其 他 
两 个 节点 上 面 。 另 外 一 种 复制 方式 则 是 根据 网 络 拓扑 结构 (网 络 布局 ) 来 决定 副本 数据 的 存放 位 置 。 比 方 说 ， 副 本 可 以 创建 在 数 
据 中 心 内 的 不 同 机 架 上 面 ， 即 便 某 个 机 架 发 生 故 障 ， 整 个 数据 库 系统 也 依然 可 以 使 用 。 

9. 反 灶 流 程 中 为 什么 要 用 到 哈 希 树 ? 


答案 : 最 简单 的 反 粹 方式 是 把 其 中 一 份 副本 发 送 给 存 有 另外 一 份 副本 的 那 台 服务 器 ， 并 在 那 台 服 务 器 上 面 比 对 这 两 份 副本 。 
但 实际 上 ， 即 便 在 写 入 操作 较 多 的 应 用 程序 中 ， 源 数据 与 目标 服务 器 所 收 到 的 数据 在 很 多 情况 下 也 会 是 相同 的 。 而 待 检测 的 副本 
在 反 业 过 程 中 一 般 都 不 会 变动 ， 因 此 列 族 数据 库 可 以 利用 这 一 特性 只 把 数据 的 哈 希 码 发 送 过 去 ， 而 不 发 送 数据 本 身 。 


10. 使 用 Gossip 协 议 来 交换 信息 的 好 处 是 什么 ? 


答案 : 与 那 种 每 个 节点 都 轮番 和 其 他 节点 通信 的 方式 相 比 ， 更 有 效率 的 做 法 是 使 每 个 节点 不 仅 把 自身 的 信息 分 享 出 去 ， 而 且 
也 把 自己 所 知道 的 其 他 节点 的 信息 也 一 起 分 享 出 去 。 前 一 种 做 法 会 使 系统 所 要 传递 的 消息 总 量 随 着 节点 数 急剧 增加 ， 而 后 一 种 做 
法 则 可 以 避免 这 个 缺点 。 


11. 提 示 移 交 机 制 怎 样 改善 写 入 操作 的 可 用 性 ? 


答案 : 如 果 数 据 库 发 现 接 收 写 入 操作 的 那个 节点 目前 出 了 故障 ， 那 么 可 以 把 该 操作 重 定向 到 另 一 个 节点 ， 比 方 说 重 定向 到 另 
一 个 副本 节点 ， 或 是 某 个 专门 用 来 在 目标 节点 故障 时 接收 写 入 请 求 的 节点 。 


那个 节点 收 到 了 重 定向 的 消息 之 后 ， 就 创建 一 份 数据 结构 ， 把 与 该 项 写 入 操作 有 关 的 信息 以 及 该 操作 本 来 应 该 友 送 到 的 目标 
保存 起 来 。 提 示 移 交 机 制 会 定期 检测 目标 服务 器 的 状态 ， 等 到 目标 服务 器 恢复 正常 之 后 ， 就 把 写 入 操作 发 送 过 去 。 
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1. 在 设计 列 族 数据 库 的 时 候 ， 终 端 用 户 的 查询 请 求 扮演 着 何 种 角色 ? 


答案 : 查询 请 求 所 提供 的 信息 有 助 于 更 好 地 设计 列 族 数 据 库 。 这 些 信息 包括 实体 、 实 体 属性 、 查 询 标准 以 及 派生 值 。 数 据 库 
应 用 程序 所 要 应 对 的 查询 问题 是 由 终端 用 户 所 发 出 的 ， 数 据 模型 的 设计 也 是 由 终端 用 户 来 驱动 的 。 


2. 使 用 列 族 数 据 库 的 时 候 ， 怎 样 才 能 避免 执行 连接 操作 ? 


答案 : 对 数据 模型 进行 去 规范 化 ， 就 可 以 避免 连接 操作 。 


[0S 


:为 什么 说 实体 应 该 建 模 成 单独 的 数据 行 ? 


答案 : 列 族 数 据 库 并 未 提供 与 关系 型 数据 库 级 别 相 同 的 事务 控制 机 制 。 一 般 来 说 ， 对 列 族 数 据 库 的 数据 行 所 进行 的 写 入 操作 
是 原子 操作 。 在 同时 更 新 表格 中 的 多 个 列 时 ， 这 些 列 要 么 全 都 能 够 得 到 更 新 ， 要 么 就 连任 何 一 列 都 无 法 更 新 。 而 在 更 新 两 个 不 同 
的 表格 时 ， 如 一 个 存放 产品 (product) 信息 的 表格 和 另 一 个 存放 书籍 (book) 信息 的 表格 ， 则 有 可 能 出 现 前 者 顺利 更 新 但 后 
者 却 未 能 更 新 的 情形 。 在 这 种 情况 下 ， 数 据 库 里 会 出 现 不 一 致 的 数据 。 


4 什么 叫做 热点 现象 (hotspotting) ， 为 什么 应 该 避免 这 种 现象 ? 


答案 : 如 果 许 多 操作 都 是 由 少数 几 人 台 服 务 器 来 执行 的 ， 那 么 集群 中 就 出 现 了 热点 。 把 大 量 负载 分 配给 少数 节点 是 一 种 低 效 的 
运作 方式 ， 这 会 使 其 他 节点 无 法 得 到 充分 利用 。 


5. 把 复杂 的 数据 结构 用 作 列 值 会 有 哪些 缺点 ? 


答案 : 并 不 是 每 一 种 列 族 数据 库 都 能 很 好 地 处 理 复杂 的 数据 结构 。 为 了 把 列 族 数 据 库 的 特性 更 好 地 运用 在 数据 结构 中 的 各 个 
属性 上 面 ， 应 该 把 每 个 属性 都 单独 放 到 一 个 列 中 。 比 方 说 ， 可 以 为 街道 (street) 、 城 市 (city) 、 州 (state) 及 邮 区 编码 
(zip) 等 属性 分 别 创建 各 自 的 列 ， 这 样 就 可 以 针对 它们 来 编订 辅助 索引 了 。 


6. 说 出 三 种 不 应 该 使 用 辅助 索引 的 情形 。 


] 访 
斩 


* 某 个 列 只 有 少数 几 种 取 值 。 


" 某 个 列 包含 很 多 互 不 相同 的 取 值 。 


* 列 值 较为 稀 朴 。 


7. 手 工 管理 索引 表 会 有 哪些 缺点 ? 


答案 : 如 果 手 工 创建 表格 ， 并 将 其 当 作 索引 来 使 用 ， 那 就 必须 负责 维护 这 些 索 引 。 可 以 在 基本 表格 发 生变 化 的 时 候 更 新 索 
引 ， 如 当 客 户 购 买 商品 的 时 候 更 新 ， 也 可 以 用 批 处 理 的 形式 以 固定 的 时 间 间 隔 来 更 新 索引 表 。 


在 基本 表格 发 生变 化 的 时 候 更 新 索引 ， 能 够 令 两 者 始终 保持 同步 。 但 这 样 做 的 缺点 是 应 用 程序 必须 执行 两 次 写 入 操作 才能 完 
成 更 新 ， 一 次 是 写 入 基本 表格 ， 另 一 次 是 写 入 索引 表 。 这 将 导致 程序 在 写 入 操作 执行 期 间 产 生 较 长 的 延迟 。 


若 采用 批 处 理 形 式 来 更 新 索引 表 ， 则 可 以 少 执行 一 次 写 入 操作 。 但 这 样 做 也 有 个 明显 的 问题 ， 那 就 是 基本 表格 和 索引 表 在 某 
个 时 间 段 内 可 能 出 现 彼此 不 同步 的 现象 。 


8. 统 计 学 可 以 分 为 哪 两 种 ?它们 各 自 的 用 途 是 什么 ? 


答案 : 可 以 分 为 描述 统计 学 和 预测 统计 学 (又 称 为 推论 统计 学 ) 。 描 述 统计 学 用 来 掌握 数据 的 特征 ， 而 预测 统计 学 则 要 研究 
怎样 根据 数据 进行 预测 。 


9. 机 器 学 习 可 以 分 为 哪 两 种 ”它们 各 自 的 用 途 是 什么 ? 


答案 : 可 以 分 为 非 监督 式 学 习 和 监督 式 学 习 。 非 监督 式 学 习 技术 (如 聚 类 技术 ) 可 用 来 探索 大 型 数据 集 ， 而 监督 式 学 习 技术 
则 可 以 供应 用 程序 从 样 例 数据 中 学 习 知识 。 监 督 式 学 习 技术 能 够 用 来 创建 分 析 器 (classifier， 分 级 器 ) 。 


10.Spark 与 MapReduce 有 什么 区 别 ? 


答案 : MapReduce 需 要 向 磁盘 中 写 入 大 量 数据 ，Spark 需 要 占用 很 多 内 存 。MapReduce 采 用 一 种 比较 固定 的 计算 模型 
是 先 执行 映射 操作 ， 然 后 执行 归纳 操作 ) ， 而 Spark 使 用 的 计算 模型 则 更 加 通用 一 些 。 


(总 
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1. 图 模型 的 两 个 组 件 是 什么 ? 
答案 : 顶点 和 边 。 
2. 说 出 至 少 三 种 可 以 用 项 点 来 建 模 的 实体 。 
. 城市 


. 公司 中 的 雇员 


电路 
供水 管道 的 枢纽 
“ 生态 系统 中 的 生物 
- 火车 站 


* 得 了 传染 病 的 病人 


3. 说 出 至 少 三 种 可 以 用 边 来 建 模 的 实体 。 


1 该 
斩 


城市 之 间 的 道路 

. 雇员 之 间 的 协作 关系 

“ 蛋白 质 之 间 的 相互 作用 

"电子 元 件 之 间 的 通路 

: 枢纽 之 间 的 供水 管道 

. 生态 系统 中 各 生物 之 间 的 捕食 关系 

“ 连接 火车 站 的 铁路 

. 病菌 在 受 感染 的 人 与 未 感染 的 人 之 间 的 传播 途径 

4. 如 果 用 顶点 来 表示 城市 ， 那 么 该 项 点 可 以 具备 哪些 属性 ? 


i 
答案 : 


5. 如 果 用 边 来 表示 两 座 城市 之 间 的 公路 ， 那 么 这 条 边 可 以 具备 哪些 属性 ? 


二 
答案 : 


修筑 年 份 
. 最 高 车 束 


6 流行 病 学 者 用 图 模型 来 表示 疾病 的 传播 情况 。 在 这 样 的 模型 中 ， 顶 点 和 边 分 别 表示 什么 ? 


时 


: 顶点 表示 人 ， 边 表示 人 之 间 的 交互 ， 如 握手 或 近 距离 站 立 。 


7. 举 例 说 明 由 部 分 与 整体 之 间 的 关系 (part-of) 所 构成 的 分 层 体 系 。 


] 
因 


联邦 政府 一 一 州 〈 或 省 ) 政府 一 一 地 方 政府 


* 汽车 各 部 件 之 间 的 关系 


8. 图 数据 库 是 如 何 避 免 连接 操作 的 ? 
答案 :; 在 使 用 图 数据 库 的 时 候 ， 可 以 循 着 顶点 之 间 的 边 来 了 解 各 顶点 之 间 的 关系 ， 因 而 无 需 执行 连接 操作 。 
9. 表 示 用 户 对 帖子 点 赞 的 那 套 模型 与 本 章 所 举 的 其 他 模型 相 比 有 什么 区 别 ? 
答案 : 区 别 在 于 ， 此 模型 是 二 分 图 (bipartite graph) [1], 
10. 什 么 样 的 商务 应 用 程序 需要 在 顶点 之 间 使 用 不 同类 型 的 边 (关系 ) ， 请 举例 说 明 。 


答案 : 比方 说 ， 运 输 公司 可 能 会 考虑 在 两 座 城市 之 间 开 展 三 种 运输 业务 ， 也 就 是 公路 运输 、 铁 路 运输 及 航空 运输 ， 而 这 三 种 
交通 方式 各 自 都 和 不同 的 属性 ， 诸 如 送 货 时 间 、 成 本 以 及 政府 管控 程度 等 。 
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1. 给 出 顶点 的 定义 。 


答案 : 边 是 顶点 之 间 的 关系 。 


3. 举 出 至 少 三 个 可 以 用 图 来 建 模 的 领域 。 


* 社交 网 络 

传染 病 的 传播 情况 
电路 

. 计算 机 网 络 (如 因特网 ) 


4 .举例 说 明 何 时 应 该 使 用 加 权 图 。 


] 访 
斩 


对 于 公路 系统 来 说 ， 可 以 用 权重 表示 两 个 城市 之 间 的 交通 距离 。 


: 对 于 社交 网 络 来 说 ， 可 以 用 权重 表示 两 位 用 户 在 对 方 的 动态 页 面 上 张 帖子 章 的 频率 ， 也 可 以 用 来 表示 他 们 向 对 方 的 帖子 发 
表 评 论 的 频率 。 


5. 举 例 说 明 何 时 应 该 使 用 有 向 图 。 
答案 : 在 家 谱 图 中 ， 可 以 用 有 向 边 来 表示 父母 与 子女 之 间 的 关系 。 
6. 阶 (order) 和 尺寸 (size) 这 两 个 概念 有 什么 区 别 ? 


答案 : 阶 (order) 是 指 图 模型 的 顶点 个 数 。 尺 寸 〈size) 是 指 图 模型 的 边 数 。 


7. 有 的 时 候 为 什么 会 把 中 介 性 (betweenness) 当成 衡量 瓶颈 程度 的 一 项 指标 ? 


答案 : 中 介 性 用 来 衡量 某 个 顶点 在 连接 图 模型 中 的 各 个 部 分 时 所 起 到 的 重要 性 。 如 果 从 网 络 中 的 某 一 部 分 到 另 一 部 分 的 所 有 
路 径 都 必须 经 过 某 个 顶点 ， 那 么 这 个 顶点 就 构成 了 网 络 中 的 瓶颈 。 这 样 的 顶点 具备 较 高 的 中 介 性 。 


8. 传 染病 学 者 如 何 通 过 接近 中 心性 (closeness) 来 判断 疾病 的 传播 情况 ? 


答案 : 接近 中 心性 是 描述 某 顶 点 与 图 中 其 他 顶点 距离 远近 的 一 项 属性 。 在 社交 网 络 里 面 ， 距 离 中 心 较 近 的 人 可 以 通过 较 短 的 
路 径 与 网 络 中 的 其 他 人 相交 流 。 在 疾病 传播 网 络 中 ， 病 菌 从 中 心性 较 高 的 人 身上 向 外 传播 的 速度 要 快 于 从 中 心性 较 低 的 人 身上 向 
外 传播 的 速度 。 


9. 什 么 时 候 应 该 使 用 多 重 图 ? 

答案 : 多 重 图 是 顶点 之 间 有 多 条 边 的 图 。 这 些 边 可 以 分 别 表示 不 同 的 运输 方式 ， 如 公路 运输 、 铁 路 运输 及 航空 运输 等 。 
10.Dijkstra 算 法 ( 戴 克 斯 特 拉 算 法 ) 的 用 途 是 什么 ? 
答案 : Dijkstra 算 法 用 于 寻找 网 络 中 的 最 短路 径 。 
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1. 把 针对 领域 的 查询 转述 成 针对 图 模型 的 查询 有 什么 好 处 ? 


答案 : 把 针对 领域 的 查询 转述 成 针对 图 模型 的 查询 之 后 ， 就 可 以 充分 利用 图 模型 查询 工具 与 图 模型 算法 来 分 析 并 探索 数据 


2.Cypher 语 言 和 Gremlin 语 言 哪 一 个 更 像 SQL? 

答案 : Cypher。 

3.MATCH 语 句 和 SQL 的 SELECT 语句 有 什么 相似 之 处 ? 

答案 : MATCH 用 来 获取 图 数据 库 中 的 数据 ， 并 且 能 够 根据 属性 对 这 些 数据 进行 筛选 。 
4.Gremlin 语 言 所 使 用 的 inE 和 outE 分 别 代表 什么 ? 

答案 : inE 表 示 传 入 某 个 顶点 的 边 ，outE 表 示 从 某 个 顶点 传 出 的 边 。 


5. 非 对 称 的 天 系 应 该 用 哪 种 类 型 的 边 来 表示 ， 是 用 有 向 边 还 是 用 无 向 边 ? 


6. 对 于 图 数据 库 来 说 ， 声 明 式 的 查询 语言 与 基于 人 遍历 算法 的 查询 语言 有 什么 区 别 ? 
答案 : 声明 式 的 语言 要 求 开发 者 指定 想 要 获取 什么 样 的 数据 ， 而 基于 遍历 算法 的 语言 则 要 求 开发 者 指定 怎样 获取 数据 。 
7. 什 么 叫做 深度 优先 搜索 ? 


答案 : 深度 优先 搜索 会 从 某 个 顶点 开始 遍历 ， 并 选 出 与 该 顶点 相连 的 下 层 顶 点 。 在 这 些 下 层 顶点 中 ， 选 出 第 一 个 顶点 ， 然 后 
再 选 出 与 那个 顶点 相连 的 下 层 顶点 。 在 那些 下 层 顶 点 中 ， 又 选 出 第 一 个 项 点， 然后 继续 向 下 饥 历 ， 直 到 某 个 顶点 已 经 没有 指向 其 
他 下 层 顶 点 的 边 为 止 。 此 时 ， 在 上 次 选 出 的 那些 同 级 顶点 之 中 ， 挑 出 第 二 个 节点 进行 访问 。 如 果 该 顶点 还 通过 某 些 边 指向 下 一 层 


顶点 ， 那 就 继续 访问 下 一 层 的 那些 顶点 ; 否则 就 回 到 上 次 选 出 的 那些 同 级 顶点 之 中 ， 并 挑 出 第 三 个 顶点 进行 访问 ， 依 此 类 推 。 
把 上 次 选 出 的 那些 同 级 顶点 全 都 遍历 完 之 后 ， 向 上 回溯 一 层 ， 并 继续 按照 上 述 方式 进行 遍历 。 
8. 什 么 叫做 广度 优先 搜索 ? 


答案 : 执行 广度 优先 搜索 时 ， 先 访问 与 当前 顶点 平 级 的 其 他 顶点 ， 然 后 再 访问 下 一 层 的 顶点 。 


答案 : 循环 路 径 可 能 会 导致 反复 访问 同一 组 顶点 。 把 访问 过 的 顶点 记录 下 来 是 一 种 避免 该 问题 的 办 法 。 
10. 处 理 图 模型 的 时 候 ， 为 什么 一 定 要 考虑 可 扩展 性 ? 
答案 : 因为 可 扩展 性 决定 了 图 数据 库 能 否 应 对 下 列 变化 : 
“ 顶点 与 边 的 数量 增加 
` 用 户 数量 增加 
* 顶点 与 边 所 具备 的 属性 数量 及 属性 大 小 有 所 增加 
第 15 章 


1. 说 出 键 值 数据 库 的 两 种 用 途 。 


] 仿 
斩 


“ 把 从 关系 型 数据 库 中 获取 到 的 数据 缓存 起 来 ， 以 提升 程序 的 性 能 。 
* 在 Web 应 用 程序 中 记录 易于 变化 的 属性 ， 如 购物 网 站 中 的 购物 车 。 


2. 说 出 两 条 采用 键 值 数据 库 来 开发 应 用 程序 的 理由 。 


] 仿 
斩 


数据 的 属性 经 常 发 生变 化 。 


问题 领域 中 的 数据 模型 比较 简单 。 


3. 说 出 文档 数据 库 的 两 种 用 途 。 


] 迟 
斩 


: 为 内 容 管理 系统 提供 技术 支持 。 
.为 移动 设备 上 面 的 应 用 程序 提供 后 端 支援 。 


4. 说 出 两 条 采用 文档 数据 库 来 开发 应 用 程序 的 理由 。 


] 访 
斩 


. 要 处 理 的 查询 模式 非常 多 。 


需要 使 用 灵活 的 数据 结构 。 


5. 说 出 列 族 数 据 库 的 两 种 用 途 。 


] 访 
斩 


从 大 量 设备 中 收集 并 分 析 日 志 数据 。 


:分析 客户 的 特征 ， 为 其 生成 并 提供 个 性 化 的 内 容 。 


6. 说 出 两 条 采用 列 族 数据 库 来 开发 应 用 程序 的 理由 。 


] 防 
斩 


. 程序 需要 在 多 个 数据 中 心 之 间 复 制 数据 。 


* 程序 需要 处 理 的 数据 量 很 大 ， 达 到 了 大 数据 级 别 。 


7. 说 出 图 数据 库 的 两 种 用 途 。 


和 
[一 


狂 


“ 对 计算 机 网 络 进行 建 模 。 


: 对 社交 网 站 进行 建 模 。 


8. 说 出 两 条 采用 图 数据 库 来 开发 应 用 程序 的 理由 。 


答 
[一 ] 


普 


.需要 明确 地 对 实体 之 间 的 关系 进行 建 模 ， 并 且 需 要 迅速 地 沿 着 实体 之 间 的 路 径 进 行 遍历 。 


* 待 解决 的 问题 领域 与 图 模型 较为 相似 ， 如 运输 网 络 。 


9. 说 出 两 种 最 适合 使 用 关系 型 数据 库 的 应 用 程序 。 


稚 
[= 


狂 


“ 交易 处 理 。 
: 数据 仓库 (data watehouse) 和 数据 集 市 (data matt) 。 
10. 论 述 NoSQL 数 据 库 与 关系 型 数据 库 在 企业 级 数据 管理 之 中 的 地 位 。 


答案 : NoSQL 数 据 库 与 关系 型 数据 库 是 互补 的 。 关 系 型 数据 库 提供 了 许多 特性 ， 可 以 保证 数据 的 完整 性 ， 并 降低 数据 异常 
的 风险 。 然 而 ， 这 些 特性 也 会 给 数据 库 操 作 带 来 一 定 的 开销 。 在 某 些 场合 ， 提 升 性 能 要 比 确 保 即 时 一 致 性 或 支持 ACID 事务 更 为 
重要 ， 此 时 选用 NoSQL 数 据 库 可 能 会 更 好 一 些 。 选 择 数 据 库 的 过 程 就 是 为 当前 任务 选择 合适 工具 的 过 程 。 做 过 的 任务 越 丰富 ， 
工具 箱 里 积累 的 工具 也 就 越 多 。 


[1 也 就 是 说 ， 图 中 的 边 只 能 由 用 户 指向 帖子 。 用 户 与 用 户 、 帖 子 与 帖子 之 间 ， 都 是 没有 边 的 。 译 者 注 


附录 B NoSQL 数 据 库 列表 


Aerospike 
开源 的 键 值 数据 库 。 针 对 闪存 (flash storage) 进行 了 优化 。 详 情 参 见 http://www.aerospike.com/。 
AllegroGraph 


支持 RDF (Resource Description Format， 资 源 描述 格式 ) 数据 的 图 数据 库 。 这 是 一 款 商业 软件 。 详 情 参 
见 http://franz.com/agraph/allegrograph/。 


Amazon Web Services DynamoDB 


由 Amazon Web Services 提 供 的 键 值 数 据 库 和 文档 数据 库 服务 。 这 项 极 易 缩放 的 服务 则 在 提供 一 种 能 够 存放 大 量 键 值 型 数 
据 的 存储 机 制 。 最 近 也 加 入 了 对 文档 型 数据 的 支持 。 该 服务 按照 使 用 情况 来 收费 。 详 情 参见 aws.amazon.com/dynamodb。 


Amazon Web Services SimpleDB 


由 Amazon Web Services 提 供 的 极 简 键 值 数 据 库 。 非 常 适合 那 种 使 用 小 型 数据 库 ， 需 要 灵活 应 对 查询 请 求 ， 但 是 不 需要 进 
行 缩放 的 应 用 程序 。 如 果 对 可 缩放 性 有 一 定 的 要 求 ， 那 么 改 用 AWS DynamoDB 会 更 好 一 些 。 该 服务 按照 使 用 情况 来 收费 。 详 情 


参见 aws.amazon.com/simpledb。 


Apache Accumulo 


基于 Google BigTable 而 设计 的 列 族 数据 库 。Accumulo 是 开源 软件 ， 提 供 了 基于 单元 格 的 访问 控制 机 制 。 此 数据 库 运 行 在 
Hadoop 环 境 之 中 。 详 情 参 见 http://accumulo.apache.org/。 


Apache CouchDB 
由 Apache Foundation 提 供 的 开源 文档 数据 库 。 详 情 参见 http://couchdb.apache.org/。 
Apache Giraph 


以 可 缩放 性 为 特点 的 开源 图 数据 库 。 该 数据 库 基于 Pregel 而 构建 ，Pregel 是 由 Google 开 发 的 图 数据 库 。 详 情 参 
见 giraph.apache.org。 


Apache HBase 

基于 Google BigTable 而 设计 的 列 族 数 据 库 。HBase 是 Hadoop 环 境 的 一 部 分 。 详 情 参 见 http://hbase.apache.org。 
ArangoDB 

开源 的 多 模型 NoSQL 数 据 库 ， 支 持 键 值 、 文 档 及 图 等 数据 模型 。 详 情 参 见 http://www.arangodb.org/。 


Cassandra 


基于 Google BigTable 和 Amazon 的 DynamoDB 而 设计 的 开源 宽 列 数据 库 。 详 情 参 
见 http://cassandra.apache.org 及 http://www.datastax.com/docs。 


Cloudant 

基于 CouchDB 而 开发 的 文档 数据 库 服 务 。 这 款 商 业 软 件 是 IBM 的 产品 。 详 情 参 见 https://cloudant.com/。 
Couchbase 

衍生 自 Apache CouchDB 的 开源 文档 数据 库 。 详 情人 参见 http://www.couchbase.com。 
FoundationDB 

一 款 商 业 的 键 值 数据 库 ， 可 以 对 键 值 进行 排序 ， 并 支持 ACID 事 务 。 详 情 参 见 https://foundationdb.com/。 
Google Cloud Datastore 

一 款 商 业 的 文档 数据 库 服 务 ， 由 Google 提 供 。 详 情 参 见 developers.google.com/datastore。 
Hypertable 

一 款 实现 了 Google BigTable 设 计 方 案 的 开源 数据 库 。 详 情人 参见 http://hypertable.org/。 
Infinispan 


开源 的 键 值 数据 库 ， 使 用 分 布 式 的 内 存 中 模型 (in-memory model) 来 支持 易于 缩放 的 键 值 数 据 网 格 。 详 情 参 
见 http://infinispan.org/。 


LevelDB 


由 Google 所 提供 的 开源 程序 库 ， 具 有 键 值 存储 功能 。 这 是 供 其 他 应 用 程序 所 使 用 的 程序 库 。 它 本 身 并 没有 提供 客户 端 / 服 务 
器 机 制 ， 该 机 制 需要 由 使 用 本 程序 库 的 应 用 程序 来 提供 。 详 情 参 见 https://github.com/google/leveldb。 


MarkLogic 


一 款 商 业 的 文档 数据 库 ， 支 持 本 地 的 XML 数 据 和 远程 的 RDF (Resource Description Format， 资 源 描述 格式 ) 数据 。 详 情 
参见 http://www.marklogic.com/。 


Microsoft Azure DocumentDB 


一 款 提 供 文档 数据 库 功 能 的 商业 服务 ， 位 于 Microsoft Azure 云 端 平 台 之 中 。 详 情 参 见 azure.microsoft.com/en- 


us/services/documentdb, 


MongoDB 


也 许 是 最 为 流行 的 文档 数据 库 。MongoDB 是 开源 的 。 详 情 参 见 http://www.mongodb.org/。 


Neo4j 
一 款 流 行 的 开源 图 数据 库 ， 支 持 Cypher 查 询 语言 。 详 情 参 见 http://neo4j.com/。 
Oracle Berkeley DB 


一 款 非常 古老 的 键 值 数据 库 ， 起 初 是 加 州 大 学 伯克利 分 校 的 项 目 。 其 开源 代码 现在 由 Oracle 管 理 。 详 情 参 


见 www.oracle.com/technetwork/database/database-technologies/berkeleydb, 
OrientDB 
开源 的 文档 数据 库 ， 也 对 图 数据 库 提供 了 一 些 支 持 。 详 情 参 见 http://www.orientdb.org。 
RavenDB 
开源 的 文档 数据 库 ， 与 .Net 框 架 搭配 使 用 。 详 情 参 见 http://ravendb.net/。 
Redis 
使 用 主 从 式 复 制 模型 的 开源 键 值 数 据 库 。 详 情 参 见 http://redis.io。 
Riak 
分 布 式 的 键 值 数据 库 。 与 Redis 不 同 的 是 ， 它 不 使 用 主 从 式 架 构 。 详 情 参 见 basho.com/products/riak-overview。 
Sparksee 
商业 的 图 数据 库 ， 还 提供 了 适用 于 iOS 和 Android 设 备 的 移动 版 本 。 详 情 参 见 sparsity-technologies.com/#sparksee。 
Sqrrl 


商业 的 多 模型 NoSQL 数 据 库 ， 基 于 Apache Accumulo， 支 持 键 值 、 文 档 、 列 族 以 及 图 数据 库 模型 。 详 情 参 
见 http://sqrrl.com。 


Titan 


开源 的 分 布 式 图 数据 库 ， 支 持 TinkerPop 平 台 。 它 使 用 Cassandra 或 其 他 数据 库 充当 后 端 持久 化 存储 机 制 。 详 情 参 
见 http://thinkaurelius.github.io/titan/。 


术语 表 


anti-entropy (有 反 粹 ， 逆 业 ) ” 反 粹 是 一 种 检测 流程 ， 用 来 探查 数据 副本 之 间 的 差异 。 从 效率 的 角度 来 看 ， 反 焙 算 法 应 该 只 
需要 交换 极 少 量 的 数据 就 能 够 检测 并 和 解决 副本 之 间 的 不 一 致 问题 。 


B 
betweenness (中 介 性 ) ”中 介 性 是 衡量 某 顶 点 是 否 构 成 瓶颈 的 一 项 指标 。 


bipartite graph (二 分 图 ， 双 分 图 ， 二 部 图 ， 偶 图 ) ”二 分 图 (也 写作 bigraph) 是 由 两 组 不 同 的 顶点 所 构成 的 图 ， 每 一 组 
内 的 顶点 都 只 能 与 男 一 组 中 的 顶点 相连 。 


Bloom filter (Bloom 过 滤器 ， 布 隆 过 滤器 ) “Bloom 


过 滤器 用 来 判断 某 个 元 素 是 否 位 于 集合 之 中 。 与 一 般 的 成 员 判定 函数 不 同 ，Bloom 过 滤器 有 时 会 返回 不 正确 的 结果 。 也 就 
是 说 ， 当 受 测 元 素 不 在 集合 之 中 时 ， 它 依然 有 可 能 给 出 肯定 的 答复 ， 这 叫做 假 阳性 (false positive) 现象 。 如 果 元 素 确实 位 于 


集合 里 面 ， 那 么 Bloom 过 滤器 绝 不 会 给 出 否定 的 答复 。 
C 


CAP theorem (CAP 定 理 ) “CAP 定 理 也 称 为 Brewer 定 理 ( 布 鲁 尔 定理 ) ， 该 定理 是 由 计算 机 科学 家 Eric Brewer ( 埃 里 克 
' 布 鲁 尔 ) 提出 的 。CAP 定 理 宣称 分 布 式 数据 库 不 能 同时 具备 一 致 性 (Consistency，C) 、 可 用 性 (Availability，A) 及 分 区 保 
护 性 (Partition Protection，P， 也 称 为 分 区 容忍 性 ) 。 该 定理 所 说 的 一 致 性 是 指 不 同 的 服务 器 上 面 所 保存 的 数据 副本 彼此 之 间 
相互 一 致 。 可 用 性 是 指数 据 库 能 够 对 任意 的 查询 请 求 给 出 响应 。 分 区 保护 性 是 指数 据 库 在 网 络 之 中 出 现 分 区 的 情况 下 依然 能 够 运 
作 。 如 果 网 络 中 彼此 相连 的 两 台 或 多 台 服 务 器 之 间 无 法 传输 数据 包 ， 那 么 网 络 之 中 就 出 现 了 分 区 。 


closeness (接近 中 心性 ) ”接近 中 心性 是 顶点 的 一 项 属性 ， 用 以 表示 该 项 点 距离 图 中 其 他 各 顶点 的 远近 。 


cluster (集群 ， 徐 ) ”集群 是 由 一 批 协 同 运 作 的 服务 器 所 构成 的 集合 。 这 些 服 务 器 的 功能 可 能 会 有 所 差别 ， 也 可 能 完全 一 


collection (集合 ) ”集合 是 由 文档 所 构成 的 组 。 集 合 内 的 各 文档 通常 都 与 同一 种 实体 有 关 。 这 个 实体 可 以 是 雇员 、 产 品 、 
记录 的 事件 (logged event) 或 客户 的 概要 信息 (customer profile) 等 。 不 相关 的 文档 也 可 以 放 在 同一 个 集合 之 中 ， 但 不 建 
议 这 样 做 。 


collision (碰撞 ) ”如 果 把 两 个 互 不 相同 的 值 输入 哈 希 函数 ， 而 该 函数 返回 了 同一 个 输出 值 ， 那 么 就 发 生 了 碰撞 。 如 果 某 个 
哈 希 函 数 很 难 把 两 个 不 同 的 值 映射 为 同一 个 输出 值 ， 那 么 该 哈 希 函 数 就 是 耐 碰撞 的 (collision resistant， 抗 碰撞 的 ) 。 如 果 所 
使 用 的 哈 希 表 不 耐 碰撞 ， 或 遇 到 两 个 输入 值 映射 为 同一 个 输出 值 的 罕见 情况 ， 那 就 需要 用 碰撞 解决 策略 (collision resolution 
strategy) 来 处 理 了 。 


column ( 列 ) ” 列 是 一 种 数据 结构 ， 用 来 在 列 族 数据 库 中 存放 单个 数值 。 
column family (〈 列 族 ， 列 复 ) ” 列 族 是 由 相关 的 列 所 构成 的 集合 。 经 常 同时 使 用 的 列 应 该 归 入 同一 个 列 族 之 中 。 


commit log (提交 日 志 ) “利用 提交 日 志 ， 数 据 库 能 够 在 确保 可 恢复 性 (recoverability) 的 前 提 下 ， 提 升 操作 性 能 。 采 用 
提交 日 志 的 列 族 数 据 库 并 不 会 把 数据 立刻 写 入 分 区 或 磁盘 块 之 中 ， 而 是 会 先 将 其 写 入 日 志 。 提 交 日 志 是 一 种 只 能 在 尾部 写 入 数据 
的 文件 。 如 果 数 据 库 管理 系统 发 生 故 障 ， 那 么 它 会 在 恢复 正常 的 时 候 ， 读 取 提 交 日 志 中 的 内 容 ， 并 把 每 一 个 尚未 写 入 相应 分 区 的 
数据 项 写 到 适当 的 分 区 里 面 。 


compression (压缩 ) ”压缩 是 一 种 数据 管理 技术 ， 它 通过 识别 数据 中 反复 出 现 的 模式 来 减少 该 数据 所 占用 的 存储 空间 。 数 
据 库 所 使 用 的 压缩 算法 应 该 要 能 够 尽快 地 完成 压缩 和 解压 操作 。 需 要 在 压缩 /解压 的 速度 与 压缩 后 的 数据 大 小 之 间 进 行 权衡 。 快 


速 压缩 算法 所 产生 的 压缩 数据 要 比 慢 速 压缩 算法 所 产生 的 压缩 数据 大 一 些 。 


consistency level (一 致 性 级 别 ， 一致 性 水 平 ) ”一 致 性 级 别 是 指 不 同 的 数据 副本 之 间 的 一 致 性 程度 。 从 最 严格 的 角度 来 
讲 ， 只 有 当 所 有 数据 副本 都 完全 一 致 时 ， 才 能 认为 数据 具备 一 致 性 。 而 从 最 宽松 的 角度 来 讲 ， 只 要 数据 持久 化 地 写 入 了 某 一 份 副 
本 之 中 ， 就 可 以 认为 该 数据 具备 一 致 性 了 。 在 这 两 个 极端 之 间 ， 还 有 很 多 中 间 级 别 。 


D 
degree (度数 ) ”与 某 顶 点 相连 的 边 数 称 为 该 项 点 的 度数 。 它 可 以 衡量 该 项 点 在 图 模型 中 的 重要 程度 。 
directed graph (有 向 图 ) ”有 向 图 是 指 顶 点 之 间 的 边 具备 特定 方向 的 图 。 


document (文档 ) ”文档 是 由 有 序 的 键 值 对 所 构成 的 集合 。 键 是 可 以 用 来 查找 值 的 独特 标识 符 。 值 是 某 种 数据 类 型 的 实 


例 ， 该 数据 类 型 受到 数据 库 的 支持 ， 比 方 说 字符 串 、 数 字 、 数 组 或 列表 . 


ee 


E 
edge ( 边 ) ” 边 用 来 定义 两 个 顶点 之 间 的 关系 ， 或 用 来 定义 连接 两 个 项 点 的 对 象 。 边 也 称 为 链接 (link) 或 弧 (arc) 。 


embedded document (嵌入 式 文档 ) ”岁入 式 文 档 使 得 用 户 可 以 把 相关 数据 保存 在 同一 份 文 档 乙 中。 这 样 做 可 以 使 文档 
数据 库 的 用 户 不 需要 再 执行 连接 (join) 操作 ， 也 就 是 不 需要 再 用 一 张 表格 之 中 的 数据 ( 称 作 foreign key (外 键 ) ) 来 查询 另 
一 张 表格 中 的 数据 了 。 


F 


flow network (流动 网 络 ， 网 络 流 ) ”流动 网 络 是 一 种 有 向 图 ， 其 中 每 条 边 都 有 容量 (capacity) ， 每 个 顶点 都 有 一 系列 
流入 边 (incoming edge) 和 流出 边 (outgoing edge) 。 流 入 边 的 总 容量 不 能 大 于 流出 边 的 总 容量 。 有 两 个 例外 的 顶点 ， 一 
个 叫做 源 点 (source vertex) ， 一 个 叫做 汇 点 (sink vertex) 。 源 点 没有 输入 ， 只 有 输出 ; 汇 点 没有 输出 ， 只 有 输入 。 

G 

Gossip protocol (Gossip 协 议 ， 传 言 协议 ， 八 卦 协议 ， 闲 谈 协 议 ， 闲 聊 协 议 ， 谈 天 协议 ) Gossip 协 议 是 一 种 在 集群 中 的 节 
点 之 间 分 享 信息 的 协议 。 与 节点 之 间 轮 番 通 信 的 做 法 相 比 ， 采 用 该 协议 来 传递 信息 效率 会 更 高 。 该 协议 要 求 节点 不 仅 要 把 自身 的 
言 息 传 递 出 去 ， 而 且 还 要 把 自己 所 知道 的 其 他 节点 的 信息 也 一 并 传送 出 去 。 

graph traversal (图 的 遍历 ) ”图 的 遍历 是 以 某 种 方式 来 访问 图 中 全 部 顶点 的 过 程 。 遍 历 操 作 的 意图 通常 是 设置 或 读 取 图 
中 各 个 顶点 的 某 项 属性 值 。 


H 
hash function ( 哈 希 函数 ， 杂 凑 国 数 ， 散 列 函数 ) 哈 希 国 数 是 把 输入 值 (如 一 串 字 符 ) 映射 为 输出 字符 串 的 算法 。 输 入 值 
的 大 小 可 能 互 不 相同 ， 但 输出 值 的 大 小 总 是 一 样 的 。 


hinted handoff (提示 移交 ， 暗 示 移 交 ) ”提示 移交 是 一 种 用 来 在 服务 器 出 现 故 障 时 保留 更 新 信息 的 协议 。 如 果 写 入 操作 
所 派发 到 的 节点 目前 无 法 运作 ， 那 么 数据 库 会 把 该 操作 重新 定向 到 另外 一 个 节点 ， 那 个 节点 可 能 是 副本 节点 ， 也 可 能 是 专门 用 来 
在 目标 节点 出 现 故障 时 接收 写 入 操作 的 节点 。 


接收 重 定向 消息 的 那个 节点 会 创建 一 种 数据 结构 ， 用 来 保存 与 本 次 写 入 操作 及 该 操作 的 最 终 目 标 有 关 的 信息 。 提 示 移 交 机 制 
会 定期 检查 目标 服务 器 的 状态 ,一旦 服务 器 恢复 就 会 将 这 些 信息 移交 过 去 。 


horizontal partitioning (水 平分 区 ， 横 向 分 区 ) 或 horizontal sharding (水 平分 片 ， 横 向 分 片 ) ”水 平分 区 是 按照 文档 来 


划分 文档 数据 库 或 按照 行 来 划分 关系 型 数据 库 的 过 程 。 
| 
intersection of graphs (图 的 交集 ， 图 的 交 ) ”图 的 交集 是 由 两 张 图 共同 具备 的 那些 顶点 与 边 所 组 成 的 集合 。 
isomorphism ( 同 构 性 ) ”如 果 某 张 图 中 的 所 有 项 点 都 与 男 一 张 图 中 的 项 点 一 一 对 应 ， 且 每 一 对 项 点 之 间 的 边 也 都 与 男 一 
张 图 中 对 应 项 点 之 间 的 边 一 一 对 应 ， 那 么 这 两 张 图 就 是 同 构 的 (isomorphic) 。 
K 


key ( 键 ) ” 键 值 数据 库 中 的 键 是 指向 值 的 引用 。 关 系 型 数据 库 中 的 键 也 是 一 种 引用 表格 中 某 个 数据 行 的 方式 。 主 键 
(primary key) 是 一 种 用 来 确定 各 数据 行 身份 的 方式 。 外 键 (foreign key) 指向 另外 一 张 表格 中 的 键 ， 外 键 用 于 引用 其 他 表格 
内 的 数据 行 。 


keyspace ( 键 空间 ) ” 键 空间 是 列 族 数 据 库 中 的 顶级 数据 结构 。 之 所 以 称 为 项 级 结构 ， 是 因为 数据 库 设 计 者 所 创建 的 其 他 
数据 结构 都 位 于 键 空间 之 中 。 键 空间 与 天 系 型 数据 库 的 纲要 (schema) 是 类 似 的 。 
L 
loop ( 自 环 ) ” 自 环 是 连接 某 顶 点 与 其 自身 的 边 。 
M 
multigraph (多 重 图 ) ” 多 重 图 是 顶点 之 间 具 有 多 条 边 的 图 。 
N 


namespace (名 称 空间 ， 命 名 空间 ) ” 名 称 空间 是 由 不 重复 的 键 值 对 所 构成 的 列表 ， 它 用 来 存放 键 值 对 。 一 个 名 称 空间 ， 
其 本 身 就 可 以 是 一 份 完整 的 键 值 数 据 库 。 名 称 空间 的 基本 特征 在 于 ， 它 是 由 键 名 不 重复 的 键 值 对 所 构成 的 集合 。 名 称 空间 内 的 值 
是 可 以 重复 的 。 


O 
order of a graph (图 的 阶 ) ”图 的 阶 就 是 图 的 项 点 数量 。 


Pp 


partition (分 区 ) “分 区 是 数据 库 中 的 逻辑 子 集 。 通 常会 根据 数据 的 某 些 属性 对 数据 进行 分 组 ， 并 将 其 分 别 保存 在 各 个 分 
区 之 中 。 


partitioning (分 区 ) ”对 于 分 布 式 数 据 库 来 说 ， 分 区 的 意思 是 把 文档 、 数 据 表 或 图 模型 分 割 到 不 同 的 服务 器 上 面 。 
CAP 定 理 中 的 分 区 则 是 指 网 络 里 的 某 一 部 分 无 法 通过 网 络 连 接 和 其 他 部 分 相互 通信 的 现象 。 


path (路 径 ， 道 路 ) ”图 的 路 径 是 由 图 中 某 些 顶 点 及 这 些 顶 点 之 间 的 边 所 组 成 的 序列 。 图 中 构成 路 径 的 这 些 顶 点 都 是 互 不 
相同 的 。 如 果 图 是 有 向 的 ， 那 么 路 径 就 称 为 有 向 路 径 ; 如 果 图 是 无 向 的 ， 则 称 为 无 向 路 径 。 


polymorphic schema (多 形 的 纲要 ， 多 态 的 模式 ) ” 多 形 的 纲要 意思 是 说 数据 库 允 许 用 户 在 同一 个 集合 里 存放 类 型 与 形式 
互 不 相同 的 文档 。 这 个 术语 通常 用 来 描述 文档 数据 库 。 


Q 
query processor (查询 处 理 器 ) 查询 处 理 器 把 数据 库 中 与 文档 、 列 或 图 有 关 的 查询 和 数据 当成 输入 值 ， 并 输出 一 系列 用 


于 获取 相关 数据 的 操作 。 键 值 数据 库 不 需要 使 用 查询 处 理 器 ， 它 们 是 通过 键 来 查找 值 的 。 
R 
replication (复制 ) ”复制 是 在 集群 中 保存 多 份 数据 拷贝 的 过 程 。 它 使 得 分 布 式 数 据 库 能 够 具备 较 高 的 可 用 性 。 
ring ( 环 ) ，” 环 是 一 种 用 来 安排 分 区 的 逻辑 结构 。 集 群 中 的 每 台 服 务 器 或 运行 在 服务 器 上 的 每 个 键 值 数 据 库 软件 实例 都 与 临 
近 的 两 台 服 务 器 或 两 个 实例 相连 接 ， 以 构成 一 个 圆 形 的 环 。 每 台 服 务 器 或 实例 都 负责 分 别处 理 位 于 某 个 特定 范围 内 的 数据 ， 这 个 
范围 是 根据 分 区 键 来 划 定 的 。 
row key ( 行 键 ， 行 关键 字 ) ，” 行 键 用 来 在 列 族 数据 库 中 标识 某 个 数据 行 的 身份 。 它 的 用 途 与 关系 型 数据 库 中 的 主键 相同 。 
9 
schemaless (无 纲要 的 ， 无 模式 的 ) ”文档 数据 库 不 要 求 数 据 建 模 者 明确 指定 文档 的 正式 结构 。 描 述 正式 结构 的 规格 书 称 
为 纲要 (schema， 模式 ) 。 关 系 型 数据 库 的 建 模 者 必须 定义 纲要 。 
sharding (分 片 ) 或 horizontal parititioning (水 平分 区 ) ”水 平分 区 是 按照 文档 来 划分 文档 数据 库 或 按照 行 来 划分 关系 
型 数据 库 的 过 程 。 
size of a graph (图 的 尺寸 ， 图 的 大 小 ) ” 图 的 尺寸 就 是 图 模型 中 的 边 数 。 
U 
undirected graph (无 向 图 ) ”无 向 图 就 是 顶点 之 间 的 边 不 表示 方向 (如 不 表示 “从 A 到 B” 的 关系 ) 的 图 。 
union of graphs (图 的 并 集 ， 图 的 并 ) ”图 的 并 集 是 由 各 图 的 顶点 与 边 合 起 来 所 构成 的 集合 。 
V 


value ( 值 ) ” 键 值 数据 库 中 的 值 是 一 个 与 键 相关 联 的 对 象 ， 该 对 象 通常 由 一 系列 字 节 组 成 。 值 可 以 是 整数 、 浮 点 数 、 字 符 
串 、 二 进 制 大 型 对 象 (Binary Large Object，BLOB) 、 半 结构 化 的 数据 (如 JSON 对 象 ) 、 图 像 、 音 频 ， 或 其 他 可 以 表示 为 一 
系列 字 节 的 任意 数据 类 型 。 


vertex (顶点 ) ”顶点 是 带 有 独特 标识 符 (unique identifier， 唯 一 标识 符 ) 的 实体 ， 它 与 列 族 数据 库 中 的 行 键 或 关系 型 数 
据 库 中 的 主键 类 似 。 请 注意 ， 顶 点 (vertex) 也 可 以 说 成 节点 (node) 。 然 而 本 书 尽量 避免 后 一 种 说 法 ， 因 为 它 会 和 集群 中 的 
节点 相 混 淆 。 集 群 中 的 节点 是 指 运 行 在 集群 中 的 某 个 服务 。 
vertical paritioning (垂直 分 区 ) ”垂直 分 区 是 一 种 改善 数据 库 性 能 的 技术 ， 它 把 关系 型 表格 中 的 各 列 分 散 地 存放 到 多 个 分 
区 之 中 。 当 需要 从 多 个 数据 行 中 读 取 数据 ， 而 读 取 的 数据 都 只 位 于 某 几 个 列 之 中 时 ， 该 技术 显得 尤为 有 用 。 
W 


weighted graph (加 权 图 ， 带 权 图 ， 赋 权 图 ) ” 加 权 图 是 每 条 边 都 带 有 一 个 数字 的 图 。 边 所 带 的 这 个 数字 可 以 表示 成 本 、 
容量 ， 或 与 边 有 关 的 其 他 指标 。 这 种 图 通常 用 来 解决 优化 问题 ， 如 寻找 顶点 之 间 的 最 短路 径 。 


